WOKIE : Traduction assistée par LLM de thésaurus SKOS pour les Humanités Numériques multilingues

1. Introduction et motivation

L'organisation des connaissances en Humanités Numériques (HN) repose fortement sur des vocabulaires contrôlés, des thésaurus et des ontologies, principalement modélisés à l'aide du Simple Knowledge Organization System (SKOS). Une barrière significative existe en raison de la prédominance de l'anglais dans ces ressources, ce qui exclut les locuteurs non natifs et sous-représente les cultures et langues diverses. Les thésaurus multilingues sont cruciaux pour des infrastructures de recherche inclusives, mais leur création manuelle n'est pas évolutive. Les méthodes classiques de Traduction Automatique (TA) échouent dans les contextes des HN en raison du manque de corpus bilingues spécifiques au domaine. Cet article présente WOKIE (Well-translated Options for Knowledge Management in International Environments), un pipeline open-source et modulaire qui combine des services de traduction externes avec un raffinement ciblé utilisant des Modèles de Langage de Grande Taille (LLM) pour automatiser la traduction de thésaurus SKOS, en équilibrant qualité, évolutivité et coût.

2. Le pipeline WOKIE : Architecture et flux de travail

WOKIE est conçu comme un pipeline configurable à plusieurs étapes qui ne nécessite aucune expertise préalable en TA ou en LLM. Il fonctionne sur du matériel courant et peut utiliser des services de traduction gratuits.

2.1 Composants principaux

Le pipeline se compose de trois étapes principales :

Traduction initiale : Un thésaurus SKOS est analysé, et ses étiquettes (prefLabel, altLabel) sont envoyées à plusieurs services de traduction externes configurables (par ex., Google Translate, API DeepL).
Agrégation des candidats & Détection des divergences : Les traductions de chaque terme sont collectées. Une innovation clé est la détection des "divergences" entre les services. Un seuil configurable (par ex., si les traductions de N services diffèrent au-delà d'un score de similarité) déclenche l'étape de raffinement.
Raffinement basé sur les LLM : Pour les termes où les traductions initiales divergent, les traductions candidates et le terme original sont soumis à un LLM (par ex., GPT-4, Llama 3) avec une instruction soigneusement conçue demandant la meilleure traduction possible et sa justification.

2.2 Logique de raffinement basée sur les LLM

L'utilisation sélective des LLM est au cœur de la conception de WOKIE. Au lieu de traduire chaque terme avec un LLM (coûteux, lent, potentiellement hallucinatoire), les LLM ne sont déployés qu'en tant qu'arbitres pour les cas difficiles. Cette approche hybride tire parti de la vitesse et du faible coût des API de TA standard pour les traductions simples, réservant la puissance de calcul des LLM pour les termes où il n'y a pas de consensus, optimisant ainsi le compromis entre qualité et dépense de ressources.

3. Détails techniques et méthodologie

WOKIE est implémenté en Python, utilisant des bibliothèques comme RDFLib pour l'analyse SKOS. L'efficacité du système repose sur son mécanisme de routage intelligent.

3.1 Métrique d'évaluation de la qualité de traduction

Pour évaluer la qualité de traduction, les auteurs ont employé une combinaison de métriques automatisées et d'évaluation humaine experte. Pour le score automatisé, ils ont adapté le score BLEU (Bilingual Evaluation Understudy), couramment utilisé dans la recherche en TA, mais ont noté ses limites pour les phrases terminologiques courtes. L'évaluation principale s'est concentrée sur l'amélioration des performances d'Appariement d'Ontologies (AO), en utilisant des systèmes AO standard comme LogMap et AML. L'hypothèse était que des traductions de meilleure qualité conduiraient à de meilleurs scores d'alignement. Le gain de performance $G$ pour un thésaurus $T$ après traduction peut être formulé comme suit :

$G(T) = \frac{Score_{matched}(T_{traduit}) - Score_{matched}(T_{original})}{Score_{matched}(T_{original})}$

où $Score_{matched}$ est la mesure-F du système d'appariement d'ontologies.

4. Résultats expérimentaux et évaluation

L'évaluation a couvert plusieurs thésaurus de HN dans 15 langues, testant différents paramètres, services de traduction et LLM.

Statistiques expérimentales clés

Thésaurus évalués : Plusieurs (par ex., Getty AAT, GND)
Langues : 15, dont l'allemand, le français, l'espagnol, le chinois, l'arabe
LLM testés : GPT-4, GPT-3.5-Turbo, Llama 3 70B
Services de référence : Google Translate, API DeepL

4.1 Qualité de traduction selon les langues

L'évaluation humaine a montré que le pipeline WOKIE (TA externe + raffinement LLM) surpassait systématiquement l'utilisation d'un seul service de traduction externe. L'amélioration de la qualité était plus marquée pour :

Les langues peu dotées : Où les API standard échouent souvent.
La terminologie spécifique au domaine : Les termes avec des nuances culturelles ou historiques (par ex., "fresco secco", "codex") pour lesquels la TA générique fournit des traductions littérales mais inexactes.

Description du graphique (imaginaire) : Un diagramme à barres comparant les scores BLEU (ou les scores d'évaluation humaine) dans quatre conditions : Google Translate seul, DeepL seul, WOKIE avec raffinement GPT-3.5, et WOKIE avec raffinement GPT-4. Les barres pour les configurations WOKIE sont significativement plus hautes, en particulier pour les paires de langues comme anglais-arabe ou anglais-chinois.

4.2 Amélioration des performances d'appariement d'ontologies

Le résultat quantitatif principal. Après avoir traité des thésaurus non-anglophones via WOKIE pour ajouter des étiquettes en anglais, les scores de mesure-F des systèmes d'appariement d'ontologies (LogMap, AML) ont augmenté substantiellement—en moyenne de 22 à 35 % selon la langue et la complexité du thésaurus. Cela prouve l'utilité fondamentale du pipeline : il améliore directement l'interopérabilité sémantique en rendant les ressources non-anglophones découvrables par les outils d'AO centrés sur l'anglais.

Description du graphique (imaginaire) : Un graphique linéaire montrant la mesure-F de l'appariement d'ontologies sur l'axe des y en fonction des différentes méthodes de traduction sur l'axe des x. La ligne commence bas pour "Pas de traduction", monte légèrement pour "Service de TA unique", et atteint un pic net pour "Pipeline WOKIE".

4.3 Analyse des performances et des coûts

En utilisant les LLM de manière sélective uniquement pour les termes faisant l'objet de divergences (typiquement 10 à 25 % du total), WOKIE a réduit les coûts des API LLM de 75 à 90 % par rapport à une approche naïve de traduction intégrale par LLM, tout en conservant environ 95 % du bénéfice en qualité. Le temps de traitement était dominé par les appels LLM, mais le pipeline global restait réalisable pour des thésaurus de taille moyenne sur du matériel standard.

5. Cadre d'analyse : Une étude de cas sans code

Scénario : Une bibliothèque numérique européenne détient un thésaurus en langue allemande sur les techniques de l'art médiéval. Des chercheurs au Japon ne peuvent pas trouver de ressources pertinentes car leurs outils d'appariement d'ontologies ne traitent que les étiquettes en anglais.

Application de WOKIE :

Entrée : Terme allemand "Wandmalerei" (peinture murale).
Étape 1 (TA externe) : Google Translate renvoie "wall painting." DeepL renvoie "mural painting." Microsoft Translator renvoie "wall painting." Il y a divergence ("mural" vs. "wall").
Étape 2 (Détection des divergences) : La similarité entre les candidats est inférieure au seuil. Le raffinement LLM est déclenché.
Étape 3 (Raffinement LLM) : Instruction : "Étant donné le terme d'histoire de l'art allemand 'Wandmalerei' et les traductions anglaises candidates ['wall painting', 'mural painting'], laquelle est le terme le plus précis et contextuellement approprié pour un thésaurus SKOS en histoire de l'art ? Considérez la spécificité et l'usage courant dans le domaine."
Sortie du LLM : "Dans le contexte des thésaurus d'histoire de l'art comme le Getty AAT, 'mural painting' est le descripteur le plus précis et couramment utilisé pour 'Wandmalerei', car il désigne spécifiquement une peinture appliquée directement sur un mur ou un plafond."
Résultat : Le concept SKOS obtient le prefLabel "mural painting", permettant un appariement précis avec les ontologies en langue anglaise.

6. Applications futures et axes de recherche

Au-delà de la traduction : Étendre WOKIE pour suggérer des concepts nouveaux apparentés ou des altLabels dans la langue cible, agissant comme un outil d'augmentation de thésaurus.
Intégration avec les modèles fondateurs : Tirer parti des modèles vision-langage (comme CLIP) pour traduire des concepts basés sur des images associées dans les collections numériques, et pas seulement sur du texte.
Boucle d'apprentissage actif : Incorporer des retours humains en boucle pour corriger les sorties des LLM, améliorant continuellement les performances spécifiques au domaine du pipeline.
Standardisation de l'évaluation : Développer une suite de référence dédiée pour évaluer la qualité de traduction des thésaurus SKOS, dépassant BLEU vers des métriques qui capturent la préservation hiérarchique et relationnelle.
Systèmes d'organisation des connaissances (KOS) plus larges : Appliquer le principe de raffinement hybride TA+LLM à des ontologies plus complexes (OWL) au-delà de SKOS.

7. Références

Kraus, F., Blumenröhr, N., Tonne, D., & Streit, A. (2025). Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri. arXiv preprint arXiv:2507.19537.
Miles, A., & Bechhofer, S. (2009). SKOS Simple Knowledge Organization System Reference. W3C Recommendation. https://www.w3.org/TR/skos-reference/
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
Carroll, J. J., & Stickler, P. (2004). RDF Triples in the Semantic Web. IEEE Internet Computing.
Getty Research Institute. (2024). Art & Architecture Thesaurus (AAT). https://www.getty.edu/research/tools/vocabularies/aat/
Papineni, K., et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).

8. Analyse experte : Idée centrale, logique, forces & faiblesses, pistes d'action

Idée centrale : WOKIE n'est pas juste un autre outil de traduction ; c'est un moteur d'interopérabilité pragmatique et soucieux des coûts pour le monde fragmenté des données du patrimoine culturel. Sa véritable innovation est de reconnaître qu'une traduction IA parfaite est une quête vaine pour les domaines de niche, et d'utiliser plutôt les LLM comme un scalpel de haute précision plutôt qu'un marteau contondant. L'article identifie correctement le problème racine dans les HN : l'anglais est la langue de requête de facto pour les données liées, créant une exclusion silencieuse de vastes réservoirs de connaissances non anglophones. L'objectif de WOKIE n'est pas la traduction poétique mais l'accès à la découverte, une cible bien plus réalisable et impactante.

Logique : L'argumentation est convaincante et bien structurée. Elle commence par un point de douleur indéniable (l'exclusion linguistique dans les HN), démolit les solutions évidentes (le travail manuel est impossible, la TA classique échoue par manque de données), et positionne les LLM comme un sauveur potentiel mais imparfait (coût, hallucinations). Ensuite, elle introduit le modèle hybride élégant : utiliser des API bon marché et rapides pour les 80 % de cas faciles, et déployer les LLM coûteux et intelligents uniquement comme arbitres pour les 20 % litigieux. Cette "détection des divergences" est le noyau astucieux du projet. L'évaluation lie logiquement la qualité de traduction au résultat concret et mesurable de l'amélioration des scores d'appariement d'ontologies, prouvant l'utilité réelle au-delà de la qualité de traduction subjective.

Forces & Faiblesses :
Forces : L'architecture hybride est commercialement avisée et techniquement solide. L'accent mis sur SKOS, un standard du W3C, assure une pertinence immédiate. La nature open-source et la conception pour du "matériel courant" abaissent considérablement les barrières à l'adoption. L'évaluation sur les performances d'AO est un coup de maître—elle mesure l'utilité, pas seulement l'esthétique.
Faiblesses : L'article passe sous silence l'ingénierie des prompts, qui est le facteur déterminant pour le raffinement par LLM. Un mauvais prompt pourrait rendre la couche LLM inutile ou nuisible. L'évaluation, bien que sensée, reste quelque peu cloisonnée ; comment WOKIE se compare-t-il au fine-tuning d'un petit modèle open-source comme NLLB sur du texte des HN ? La trajectoire des coûts à long terme des API LLM est un facteur de risque pour la durabilité qui n'est pas pleinement abordé.

Pistes d'action :

Pour les institutions des HN : Pilotez WOKIE immédiatement sur un thésaurus non-anglophone clé. Le retour sur investissement en termes d'amélioration de la découverte des ressources et d'alignement avec des pôles majeurs comme Europeana ou la DPLA pourrait être significatif. Commencez avec les services gratuits pour valider.
Pour les développeurs : Contribuez au code source de WOKIE, en particulier en créant une bibliothèque d'instructions optimisées et adaptées à différents sous-domaines des HN (archéologie, musicologie, etc.).
Pour les financeurs : Financez la création d'un référentiel de référence de qualité, multilingue, pour la terminologie des HN afin de faire avancer le domaine au-delà des scores BLEU. Soutenez les projets qui intègrent la sortie de WOKIE dans des systèmes d'apprentissage actif.
Prochaine étape critique : La communauté doit développer un modèle de gouvernance pour ces étiquettes traduites automatiquement. Elles doivent être clairement étiquetées comme "augmentées par machine" pour maintenir l'intégrité scientifique, suivant les principes de provenance des données défendus par des initiatives comme la Research Data Alliance (RDA).

En conclusion, WOKIE représente le type d'application IA pragmatique et axée sur les cas d'usage qui changera réellement les flux de travail. Il ne poursuit pas l'AGI ; il résout un problème spécifique et douloureux avec un mélange astucieux de technologies anciennes et nouvelles. Son succès ne se mesurera pas en points BLEU, mais au nombre de documents historiques auparavant invisibles qui deviennent soudainement trouvables pour un chercheur mondial.