WOKIE: Tradução de Tesauros SKOS Assistida por LLM para Humanidades Digitais Multilíngues

1. Introdução e Motivação

A organização do conhecimento nas Humanidades Digitais (HD) depende fortemente de vocabulários controlados, tesauros e ontologias, modelados principalmente usando o Sistema Simples de Organização do Conhecimento (SKOS). Existe uma barreira significativa devido ao predomínio do inglês nesses recursos, o que exclui falantes não nativos e sub-representa diversas culturas e línguas. Tesauros multilíngues são cruciais para infraestruturas de pesquisa inclusivas, mas sua criação manual não é escalável. Os métodos clássicos de Tradução Automática (TA) falham em contextos de HD devido à falta de corpora bilíngues específicos do domínio. Este artigo apresenta o WOKIE (Well-translated Options for Knowledge Management in International Environments), um pipeline modular de código aberto que combina serviços de tradução externos com refinamento direcionado usando Modelos de Linguagem de Grande Escala (LLMs) para automatizar a tradução de tesauros SKOS, equilibrando qualidade, escalabilidade e custo.

2. O Pipeline WOKIE: Arquitetura e Fluxo de Trabalho

O WOKIE foi projetado como um pipeline configurável e multiestágio que não requer conhecimento prévio em TA ou LLMs. Ele é executado em hardware comum e pode utilizar serviços de tradução gratuitos.

2.1 Componentes Principais

O pipeline consiste em três estágios principais:

Tradução Inicial: Um tesauro SKOS é analisado e seus rótulos (prefLabel, altLabel) são enviados para múltiplos serviços de tradução externos configuráveis (por exemplo, Google Tradutor, API DeepL).
Agregação de Candidatos e Detecção de Divergência: As traduções para cada termo são coletadas. Uma inovação chave é a detecção de "divergência" entre os serviços. Um limiar configurável (por exemplo, se as traduções de N serviços diferirem além de uma pontuação de similaridade) aciona o estágio de refinamento.
Refinamento Baseado em LLM: Para os termos em que as traduções iniciais divergem, as traduções candidatas e o termo original são fornecidos a um LLM (por exemplo, GPT-4, Llama 3) com um prompt cuidadosamente elaborado solicitando a melhor tradução possível e sua justificativa.

2.2 Lógica de Refinamento Baseada em LLM

O uso seletivo de LLMs é central para o design do WOKIE. Em vez de traduzir todos os termos com um LLM (caro, lento, potencialmente alucinatório), os LLMs são implantados apenas como árbitros para casos difíceis. Esta abordagem híbrida aproveita a velocidade e o baixo custo das APIs de TA padrão para traduções diretas, reservando o poder de computação dos LLMs para termos onde não há consenso, otimizando assim o equilíbrio entre qualidade e gasto de recursos.

3. Detalhes Técnicos e Metodologia

O WOKIE é implementado em Python, utilizando bibliotecas como o RDFLib para análise de SKOS. A eficácia do sistema depende do seu mecanismo de roteamento inteligente.

3.1 Métrica de Avaliação da Qualidade da Tradução

Para avaliar a qualidade da tradução, os autores empregaram uma combinação de métricas automatizadas e avaliação humana especializada. Para pontuação automatizada, eles adaptaram a pontuação BLEU (Bilingual Evaluation Understudy), comumente usada em pesquisas de TA, mas observaram suas limitações para frases terminológicas curtas. A avaliação principal focou na melhoria no desempenho do Alinhamento de Ontologias (AO), usando sistemas padrão de AO como LogMap e AML. A hipótese era que traduções de maior qualidade levariam a melhores pontuações de alinhamento. O ganho de desempenho $G$ para um tesauro $T$ após a tradução pode ser formulado como:

$G(T) = \frac{Score_{matched}(T_{traduzido}) - Score_{matched}(T_{original})}{Score_{matched}(T_{original})}$

onde $Score_{matched}$ é a medida-F do sistema de alinhamento de ontologias.

4. Resultados Experimentais e Avaliação

A avaliação abrangeu vários tesauros de HD em 15 línguas, testando diferentes parâmetros, serviços de tradução e LLMs.

Estatísticas Experimentais Principais

Tesauros Avaliados: Múltiplos (por exemplo, Getty AAT, GND)
Línguas: 15, incluindo alemão, francês, espanhol, chinês, árabe
LLMs Testados: GPT-4, GPT-3.5-Turbo, Llama 3 70B
Serviços de Base: Google Tradutor, API DeepL

4.1 Qualidade da Tradução em Diferentes Línguas

A avaliação humana mostrou que o pipeline WOKIE (TA externa + refinamento por LLM) superou consistentemente o uso de qualquer serviço de tradução externo isolado. A melhoria de qualidade foi mais pronunciada para:

Línguas de poucos recursos: Onde as APIs padrão frequentemente falham.
Terminologia específica do domínio: Termos com nuances culturais ou históricas (por exemplo, "fresco secco", "codex") onde a TA genérica fornece traduções literais, mas imprecisas.

Descrição do Gráfico (Imaginário): Um gráfico de barras comparando pontuações BLEU (ou pontuações de avaliação humana) em quatro condições: Google Tradutor isolado, DeepL isolado, WOKIE com refinamento GPT-3.5 e WOKIE com refinamento GPT-4. As barras para as configurações do WOKIE são significativamente mais altas, especialmente para pares de línguas como inglês-árabe ou inglês-chinês.

4.2 Melhoria no Desempenho do Alinhamento de Ontologias

O principal resultado quantitativo. Após processar tesauros não ingleses através do WOKIE para adicionar rótulos em inglês, as pontuações de medida-F dos sistemas de alinhamento de ontologias (LogMap, AML) aumentaram substancialmente—em média 22-35%, dependendo da língua e da complexidade do tesauro. Isso comprova a utilidade central do pipeline: ele aprimora diretamente a interoperabilidade semântica ao tornar recursos não ingleses detectáveis por ferramentas de AO centradas no inglês.

Descrição do Gráfico (Imaginário): Um gráfico de linhas mostrando a medida-F do alinhamento de ontologias no eixo y contra diferentes métodos de tradução no eixo x. A linha começa baixa para "Sem Tradução", sobe ligeiramente para "Serviço Único de TA" e atinge um pico acentuado para "Pipeline WOKIE".

4.3 Análise de Desempenho e Custo

Ao usar LLMs seletivamente apenas para termos com divergência (tipicamente 10-25% do total), o WOKIE reduziu os custos de API de LLM em 75-90% em comparação com uma abordagem ingênua de tradução completa por LLM, mantendo cerca de 95% do benefício de qualidade. O tempo de processamento foi dominado pelas chamadas de LLM, mas o pipeline geral permaneceu viável para tesauros de médio porte em hardware padrão.

5. Estrutura de Análise: Um Estudo de Caso Sem Código

Cenário: Uma biblioteca digital europeia possui um tesauro em língua alemã para técnicas de arte medieval. Pesquisadores no Japão não conseguem encontrar recursos relevantes porque suas ferramentas de alinhamento de ontologias processam apenas rótulos em inglês.

Aplicação do WOKIE:

Entrada: Termo alemão "Wandmalerei" (pintura mural).
Estágio 1 (TA Externa): O Google Tradutor retorna "wall painting". O DeepL retorna "mural painting". O Microsoft Tradutor retorna "wall painting". Há divergência ("mural" vs. "wall").
Estágio 2 (Detecção de Divergência): A similaridade entre os candidatos está abaixo do limiar. O refinamento por LLM é acionado.
Estágio 3 (Refinamento por LLM): Prompt: "Dado o termo de história da arte alemão 'Wandmalerei' e as traduções candidatas em inglês ['wall painting', 'mural painting'], qual é o termo mais preciso e contextualmente apropriado para um tesauro SKOS em história da arte? Considere a especificidade e o uso comum na área."
Saída do LLM: "No contexto de tesauros de história da arte como o Getty AAT, 'mural painting' é o descritor mais preciso e comumente usado para 'Wandmalerei', pois denota especificamente a pintura aplicada diretamente a uma parede ou teto."
Resultado: O conceito SKOS recebe o prefLabel "mural painting", permitindo um alinhamento preciso com ontologias em língua inglesa.

6. Aplicações Futuras e Direções de Pesquisa

Além da Tradução: Estender o WOKIE para sugerir conceitos novos relacionados ou altLabels na língua-alvo, atuando como uma ferramenta de ampliação de tesauros.
Integração com Modelos Fundamentais: Aproveitar modelos visão-linguagem (como CLIP) para traduzir conceitos com base em imagens associadas em coleções digitais, não apenas em texto.
Ciclo de Aprendizado Ativo: Incorporar feedback humano no ciclo para corrigir as saídas do LLM, melhorando continuamente o desempenho específico do domínio do pipeline.
Padronização da Avaliação: Desenvolver um conjunto de benchmarks dedicado para avaliar a qualidade da tradução de SKOS/tesauros, indo além do BLEU para métricas que capturem a preservação hierárquica e relacional.
Sistemas de Organização do Conhecimento (KOS) mais Amplos: Aplicar o princípio híbrido de refinamento TA+LLM a ontologias mais complexas (OWL) além do SKOS.

7. Referências

Kraus, F., Blumenröhr, N., Tonne, D., & Streit, A. (2025). Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri. arXiv preprint arXiv:2507.19537.
Miles, A., & Bechhofer, S. (2009). SKOS Simple Knowledge Organization System Reference. Recomendação do W3C. https://www.w3.org/TR/skos-reference/
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
Carroll, J. J., & Stickler, P. (2004). RDF Triples in the Semantic Web. IEEE Internet Computing.
Getty Research Institute. (2024). Art & Architecture Thesaurus (AAT). https://www.getty.edu/research/tools/vocabularies/aat/
Papineni, K., et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).

8. Análise de Especialista: Ideia Central, Fluxo Lógico, Pontos Fortes e Fracos, Insights Acionáveis

Ideia Central: O WOKIE não é apenas mais uma ferramenta de tradução; é um motor de interoperabilidade pragmático e consciente dos custos para o mundo fragmentado dos dados do património cultural. Sua verdadeira inovação é reconhecer que a tradução perfeita por IA é uma tarefa impossível para domínios de nicho e, em vez disso, usar LLMs como um bisturi de alta precisão, e não como um martelo. O artigo identifica corretamente o problema de raiz nas HD: o inglês é a língua de consulta de facto para dados ligados, criando uma exclusão silenciosa de vastos reservatórios de conhecimento não ingleses. O objetivo do WOKIE não é a tradução poética, mas permitir a descoberta, um alvo muito mais alcançável e impactante.

Fluxo Lógico: O argumento é convincente e bem estruturado. Começa com um ponto de dor inegável (exclusão linguística nas HD), demole as soluções óbvias (o trabalho manual é impossível, a TA clássica falha devido à escassez de dados) e posiciona os LLMs como um salvador potencial, mas imperfeito (custo, alucinações). Em seguida, introduz o modelo híbrido elegante: usar APIs baratas e rápidas para os 80% dos casos fáceis e implantar LLMs caros e inteligentes apenas como árbitros para os 20% controversos. Esta "detecção de divergência" é o núcleo inteligente do projeto. A avaliação liga logicamente a qualidade da tradução ao resultado concreto e mensurável da melhoria nas pontuações de alinhamento de ontologias, comprovando a utilidade no mundo real além da qualidade subjetiva da tradução.

Pontos Fortes e Fracos:
Pontos Fortes: A arquitetura híbrida é comercialmente perspicaz e tecnicamente sólida. O foco no SKOS, um padrão do W3C, garante relevância imediata. A natureza de código aberto e o design para "hardware comum" reduzem drasticamente as barreiras de adoção. Avaliar o desempenho em AO é um golpe de mestre—mede a utilidade, não apenas a estética.
Pontos Fracos: O artigo passa superficialmente pela engenharia de prompts, que é o fator decisivo para o refinamento por LLM. Um prompt ruim pode tornar a camada de LLM inútil ou prejudicial. A avaliação, embora sensata, ainda é um tanto isolada; como o WOKIE se compara ao ajuste fino de um modelo pequeno e de código aberto como o NLLB em texto de HD? A trajetória de custo de longo prazo das APIs de LLM é um fator de risco para a sustentabilidade não totalmente abordado.

Insights Acionáveis:

Para Instituições de HD: Teste o WOKIE imediatamente em um tesauro não inglês chave. O ROI na melhoria da descoberta de recursos e no alinhamento com grandes hubs como a Europeana ou a DPLA pode ser significativo. Comece com os serviços de nível gratuito para validação.
Para Desenvolvedores: Contribua para o código do WOKIE, especialmente na criação de uma biblioteca de prompts otimizados e ajustados por domínio para diferentes subáreas das HD (arqueologia, musicologia, etc.).
Para Financiadores: Financie a criação de um benchmark de terminologia de HD multilíngue de padrão ouro para levar o campo além das pontuações BLEU. Apoie projetos que integrem a saída do WOKIE em sistemas de aprendizagem ativa.
Próximo Passo Crítico: A comunidade deve desenvolver um modelo de governança para esses rótulos traduzidos por máquina. Eles devem ser claramente marcados como "aumentados por máquina" para manter a integridade acadêmica, seguindo os princípios de proveniência de dados defendidos por iniciativas como a Research Data Alliance (RDA).

Em conclusão, o WOKIE representa o tipo de aplicação de IA pragmática e orientada por casos de uso que realmente mudará os fluxos de trabalho. Ele não persigue a AGI; resolve um problema específico e doloroso com uma combinação inteligente de tecnologia antiga e nova. Seu sucesso será medido não em pontos BLEU, mas no número de registros históricos anteriormente invisíveis que de repente se tornam localizáveis para um pesquisador global.