WOKIE: Traducción Asistida por LLM de Tesauros SKOS para las Humanidades Digitales Multilingües

1. Introducción y Motivación

La organización del conocimiento en las Humanidades Digitales (HD) depende en gran medida de vocabularios controlados, tesauros y ontologías, modelados principalmente utilizando el Sistema Simple de Organización del Conocimiento (SKOS). Existe una barrera significativa debido al predominio del inglés en estos recursos, lo que excluye a hablantes no nativos y subrepresenta diversas culturas e idiomas. Los tesauros multilingües son cruciales para infraestructuras de investigación inclusivas, pero su creación manual no es escalable. Los métodos clásicos de Traducción Automática (TA) fallan en contextos de HD debido a la falta de corpus bilingües específicos del dominio. Este artículo presenta WOKIE (Well-translated Options for Knowledge Management in International Environments), una canalización modular de código abierto que combina servicios de traducción externos con un refinamiento específico utilizando Modelos de Lenguaje de Gran Tamaño (LLM) para automatizar la traducción de tesauros SKOS, equilibrando calidad, escalabilidad y coste.

2. La Canalización WOKIE: Arquitectura y Flujo de Trabajo

WOKIE está diseñada como una canalización configurable y de múltiples etapas que no requiere experiencia previa en TA o LLM. Se ejecuta en hardware común y puede utilizar servicios de traducción gratuitos.

2.1 Componentes Principales

La canalización consta de tres etapas principales:

Traducción Inicial: Se analiza un tesauro SKOS y sus etiquetas (prefLabel, altLabel) se envían a múltiples servicios de traducción externos configurables (por ejemplo, Google Translate, DeepL API).
Agregación de Candidatos y Detección de Discrepancias: Se recopilan las traducciones de cada término. Una innovación clave es la detección de "discrepancia" entre los servicios. Un umbral configurable (por ejemplo, si las traducciones de N servicios difieren más allá de una puntuación de similitud) activa la etapa de refinamiento.
Refinamiento Basado en LLM: Para los términos donde las traducciones iniciales discrepan, las traducciones candidatas y el término original se envían a un LLM (por ejemplo, GPT-4, Llama 3) con una instrucción cuidadosamente elaborada que solicita la mejor traducción posible y su justificación.

2.2 Lógica de Refinamiento Basada en LLM

El uso selectivo de LLM es central en el diseño de WOKIE. En lugar de traducir cada término con un LLM (costoso, lento, potencialmente alucinatorio), los LLM se despliegan solo como árbitros para casos difíciles. Este enfoque híbrido aprovecha la velocidad y el bajo coste de las API de TA estándar para traducciones sencillas, reservando la capacidad de cómputo de los LLM para términos donde falta consenso, optimizando así el equilibrio entre calidad y gasto de recursos.

3. Detalles Técnicos y Metodología

WOKIE está implementada en Python, utilizando bibliotecas como RDFLib para el análisis de SKOS. La eficacia del sistema depende de su mecanismo de enrutamiento inteligente.

3.1 Métrica de Evaluación de la Calidad de Traducción

Para evaluar la calidad de la traducción, los autores emplearon una combinación de métricas automáticas y evaluación humana experta. Para la puntuación automática, adaptaron la puntuación BLEU (Bilingual Evaluation Understudy), comúnmente utilizada en investigación de TA, pero señalaron sus limitaciones para frases terminológicas cortas. La evaluación central se centró en la mejora del rendimiento en la Alineación de Ontologías (OM), utilizando sistemas OM estándar como LogMap y AML. La hipótesis era que traducciones de mayor calidad conducirían a mejores puntuaciones de alineación. La ganancia de rendimiento $G$ para un tesauro $T$ después de la traducción se puede formular como:

$G(T) = \frac{Score_{matched}(T_{translated}) - Score_{matched}(T_{original})}{Score_{matched}(T_{original})}$

donde $Score_{matched}$ es la medida-F del sistema de alineación de ontologías.

4. Resultados Experimentales y Evaluación

La evaluación cubrió varios tesauros de HD en 15 idiomas, probando diferentes parámetros, servicios de traducción y LLM.

Estadísticas Clave del Experimento

Tesauros Evaluados: Múltiples (por ejemplo, Getty AAT, GND)
Idiomas: 15, incluyendo alemán, francés, español, chino, árabe
LLM Probados: GPT-4, GPT-3.5-Turbo, Llama 3 70B
Servicios de Referencia: Google Translate, DeepL API

4.1 Calidad de Traducción en Diferentes Idiomas

La evaluación humana mostró que la canalización WOKIE (TA externa + refinamiento con LLM) superó consistentemente el uso de cualquier servicio de traducción externo individual. La mejora de calidad fue más pronunciada para:

Idiomas con pocos recursos: Donde las API estándar a menudo fallan.
Terminología específica del dominio: Términos con matices culturales o históricos (por ejemplo, "fresco secco", "codex") donde la TA genérica proporciona traducciones literales pero inexactas.

Descripción del Gráfico (Imaginado): Un gráfico de barras que compara las puntuaciones BLEU (o puntuaciones de evaluación humana) en cuatro condiciones: solo Google Translate, solo DeepL, WOKIE con refinamiento GPT-3.5 y WOKIE con refinamiento GPT-4. Las barras para las configuraciones WOKIE son significativamente más altas, especialmente para pares de idiomas como inglés-árabe o inglés-chino.

4.2 Mejora del Rendimiento en la Alineación de Ontologías

El resultado cuantitativo principal. Después de procesar tesauros no ingleses a través de WOKIE para añadir etiquetas en inglés, las puntuaciones de medida-F de los sistemas de alineación de ontologías (LogMap, AML) aumentaron sustancialmente—en un promedio de 22-35% dependiendo del idioma y la complejidad del tesauro. Esto prueba la utilidad central de la canalización: mejora directamente la interoperabilidad semántica al hacer que los recursos no ingleses sean descubribles para las herramientas de OM centradas en inglés.

Descripción del Gráfico (Imaginado): Un gráfico de líneas que muestra la medida-F de la alineación de ontologías en el eje Y frente a diferentes métodos de traducción en el eje X. La línea comienza baja para "Sin Traducción", sube ligeramente para "Servicio de TA Único" y alcanza un pico pronunciado para "Canalización WOKIE".

4.3 Análisis de Rendimiento y Coste

Al usar LLM selectivamente solo para términos con discrepancia (típicamente el 10-25% del total), WOKIE redujo los costes de las API de LLM en un 75-90% en comparación con un enfoque ingenuo de traducción completa con LLM, manteniendo aproximadamente el 95% del beneficio de calidad. El tiempo de procesamiento estuvo dominado por las llamadas a LLM, pero la canalización general siguió siendo factible para tesauros de tamaño medio en hardware estándar.

5. Marco de Análisis: Un Caso de Estudio Sin Código

Escenario: Una biblioteca digital europea posee un tesauro en alemán sobre técnicas de arte medieval. Investigadores en Japón no pueden encontrar recursos relevantes porque sus herramientas de alineación de ontologías solo procesan etiquetas en inglés.

Aplicación de WOKIE:

Entrada: Término alemán "Wandmalerei" (pintura mural).
Etapa 1 (TA Externa): Google Translate devuelve "wall painting." DeepL devuelve "mural painting." Microsoft Translator devuelve "wall painting." Hay discrepancia ("mural" vs. "wall").
Etapa 2 (Detección de Discrepancia): La similitud entre los candidatos está por debajo del umbral. Se activa el refinamiento con LLM.
Etapa 3 (Refinamiento con LLM): Instrucción: "Dado el término de historia del arte alemán 'Wandmalerei' y las traducciones candidatas al inglés ['wall painting', 'mural painting'], ¿cuál es el término más preciso y contextualmente apropiado para un tesauro SKOS en historia del arte? Considera la especificidad y el uso común en el campo."
Salida del LLM: "En el contexto de tesauros de historia del arte como el Getty AAT, 'mural painting' es el descriptor más preciso y comúnmente utilizado para 'Wandmalerei', ya que denota específicamente la pintura aplicada directamente a una pared o techo."
Resultado: El concepto SKOS obtiene el prefLabel "mural painting", permitiendo una alineación precisa con ontologías en inglés.

6. Aplicaciones Futuras y Direcciones de Investigación

Más Allá de la Traducción: Extender WOKIE para sugerir conceptos nuevos relacionados o altLabels en el idioma objetivo, actuando como una herramienta de aumento de tesauros.
Integración con Modelos Fundacionales: Aprovechar modelos de visión y lenguaje (como CLIP) para traducir conceptos basándose en imágenes asociadas en colecciones digitales, no solo en texto.
Bucle de Aprendizaje Activo: Incorporar retroalimentación humana en el bucle para corregir las salidas de los LLM, mejorando continuamente el rendimiento específico del dominio de la canalización.
Estandarización de la Evaluación: Desarrollar un conjunto de pruebas de referencia dedicado para evaluar la calidad de la traducción de SKOS/tesauros, yendo más allá de BLEU hacia métricas que capturen la preservación jerárquica y relacional.
Sistemas de Organización del Conocimiento (KOS) Más Amplios: Aplicar el principio híbrido de refinamiento TA+LLM a ontologías más complejas (OWL) más allá de SKOS.

7. Referencias

Kraus, F., Blumenröhr, N., Tonne, D., & Streit, A. (2025). Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri. arXiv preprint arXiv:2507.19537.
Miles, A., & Bechhofer, S. (2009). SKOS Simple Knowledge Organization System Reference. Recomendación del W3C. https://www.w3.org/TR/skos-reference/
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
Carroll, J. J., & Stickler, P. (2004). RDF Triples in the Semantic Web. IEEE Internet Computing.
Getty Research Institute. (2024). Art & Architecture Thesaurus (AAT). https://www.getty.edu/research/tools/vocabularies/aat/
Papineni, K., et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).

8. Análisis Experto: Idea Central, Flujo Lógico, Fortalezas y Debilidades, Perspectivas Accionables

Idea Central: WOKIE no es solo otra herramienta de traducción; es un motor de interoperabilidad pragmático y consciente de los costes para el mundo balcanizado de los datos del patrimonio cultural. Su verdadera innovación es reconocer que la traducción perfecta con IA es una tarea imposible para dominios especializados, y en su lugar, utiliza los LLM como un bisturí de alta precisión en lugar de un martillo contundente. El artículo identifica correctamente el problema de raíz en las HD: el inglés es el de facto lenguaje de consulta para los datos enlazados, creando una exclusión silenciosa de vastos depósitos de conocimiento no ingleses. El objetivo de WOKIE no es la traducción poética sino habilitar el descubrimiento, un objetivo mucho más alcanzable e impactante.

Flujo Lógico: El argumento es convincente y está bien estructurado. Comienza con un punto de dolor innegable (exclusión lingüística en las HD), demuele las soluciones obvias (el trabajo manual es imposible, la TA clásica falla por escasez de datos) y posiciona a los LLM como un salvador potencial pero imperfecto (coste, alucinaciones). Luego, introduce el elegante modelo híbrido: usar API baratas y rápidas para el 80% de los casos fáciles, y desplegar LLM caros e inteligentes solo como árbitros para el 20% controvertido. Esta "detección de discrepancia" es el núcleo inteligente del proyecto. La evaluación vincula lógicamente la calidad de la traducción con el resultado concreto y medible de la mejora en las puntuaciones de alineación de ontologías, demostrando una utilidad real más allá de la calidad subjetiva de la traducción.

Fortalezas y Debilidades:
Fortalezas: La arquitectura híbrida es comercialmente astuta y técnicamente sólida. El enfoque en SKOS, un estándar del W3C, garantiza relevancia inmediata. Su naturaleza de código abierto y su diseño para "hardware común" reducen drásticamente las barreras de adopción. Evaluar en el rendimiento de OM es un golpe maestro—mide la utilidad, no solo la estética.
Debilidades: El artículo pasa por alto la ingeniería de instrucciones (prompt engineering), que es el factor decisivo para el refinamiento con LLM. Una instrucción mala podría hacer que la capa de LLM sea inútil o perjudicial. La evaluación, aunque sensata, sigue siendo algo aislada; ¿cómo se compara WOKIE con el ajuste fino de un modelo pequeño de código abierto como NLLB en texto de HD? La trayectoria de costes a largo plazo de las API de LLM es un factor de riesgo para la sostenibilidad que no se aborda completamente.

Perspectivas Accionables:

Para Instituciones de HD: Pilote WOKIE inmediatamente en un tesauro clave no inglés. El ROI en la mejora del descubrimiento de recursos y la alineación con centros importantes como Europeana o la DPLA podría ser significativo. Comience con los servicios de nivel gratuito para validar.
Para Desarrolladores: Contribuya al código de WOKIE, especialmente en la creación de una biblioteca de instrucciones optimizadas y ajustadas al dominio para diferentes subcampos de las HD (arqueología, musicología, etc.).
Para Financiadores: Financien la creación de un punto de referencia (benchmark) de terminología de HD multilingüe de alto nivel para llevar al campo más allá de las puntuaciones BLEU. Apoyen proyectos que integren la salida de WOKIE en sistemas de aprendizaje activo.
Próximo Paso Crítico: La comunidad debe desarrollar un modelo de gobernanza para estas etiquetas traducidas automáticamente. Deberían etiquetarse claramente como "aumentadas por máquina" para mantener la integridad académica, siguiendo los principios de procedencia de datos defendidos por iniciativas como la Research Data Alliance (RDA).

En conclusión, WOKIE representa el tipo de aplicación de IA pragmática y orientada a casos de uso que realmente cambiará los flujos de trabajo. No persigue la AGI; resuelve un problema específico y doloroso con una combinación inteligente de tecnología antigua y nueva. Su éxito no se medirá en puntos BLEU, sino en la cantidad de registros históricos previamente invisibles que de repente se vuelven localizables para un investigador global.