Amélioration des traducteurs à grands modèles de langage via les mémoires de traduction

1. Introduction

Cet article étudie une nouvelle approche pour améliorer la traduction automatique (TA) en exploitant les capacités émergentes d'apprentissage en contexte des Grands Modèles de Langage (LLM). La prémisse centrale est que les Mémoires de Traduction (TM) — des bases de données de traductions humaines antérieures — peuvent servir de prompts few-shot très efficaces pour les LLM, les guidant à produire des traductions plus précises et adaptées au domaine sans nécessiter de modifications architecturales ou de réglage fin.

Ce travail se positionne par rapport aux méthodes antérieures qui nécessitaient soit de modifier les architectures des modèles de Traduction Automatique Neuronale (NMT), soit de construire des bases de connaissances de traduction séparées. En revanche, la méthode proposée, Translation Memory Prompting for Large Language Models (TMP-LM), est une technique légère, basée uniquement sur le prompting, qui capitalise sur la capacité inhérente du LLM à comprendre et suivre les instructions présentées dans sa fenêtre de contexte.

2. Méthodologie : Prompting par Mémoire de Traduction pour les LLM (TMP-LM)

TMP-LM est un cadre simple mais puissant qui injecte des connaissances de traduction dans un LLM en ajoutant des exemples pertinents de TM à la requête de traduction. Le processus implique : 1) La récupération de phrases sources similaires et de leurs traductions depuis une TM pour une phrase d'entrée donnée. 2) Le formatage de ces paires (source, cible) en un prompt cohérent suivant un modèle spécifique. 3) La présentation de ce prompt, suivi de la nouvelle phrase source, au LLM pour traduction.

2.1. Conception du modèle de prompt

L'article explore différents styles de prompts pour communiquer efficacement la tâche de traduction et les exemples au LLM. Deux modèles principaux sont mis en avant :

Modèle Instructionnel (INSTRUCTION) : Utilise des instructions en langage naturel. Par exemple : « Si la traduction de 'X1' de l'anglais vers le français est 'Y1' et que la traduction de 'X2' est 'Y2', alors quelle est la traduction de 'X_nouveau' ? Seuls les résultats de traduction sont requis. »
Modèle Structuré (CODE) : Utilise une structure plus formelle de paires clé-valeur. Par exemple : « [langue-src]=[X1] [langue-cible]=[Y1] [langue-src]=[X2] [langue-cible]=[Y2] [langue-src]=[X_nouveau] [langue-cible]= »

Le choix du modèle impacte significativement les performances du LLM, les modèles structurés produisant souvent des sorties plus cohérentes en réduisant l'ambiguïté.

2.2. Le cadre TMP-LM

Le mécanisme central peut être abstrait. Étant donné une phrase d'entrée $x$, une fonction de récupération de TM $R(x)$ trouve les $k$ paires source-cible les plus similaires $(x_i^{tm}, y_i^{tm})$. Une fonction de construction de prompt $C(\{(x_i^{tm}, y_i^{tm})\}_{i=1}^k, x)$ les formate en un prompt final $P$. Le LLM, noté $M$, génère ensuite la traduction : $\hat{y} = M(P)$.

L'efficacité repose sur la capacité du LLM à effectuer un raisonnement analogique en contexte — identifier le motif dans les exemples fournis et l'appliquer à la nouvelle requête.

3. Configuration expérimentale & Résultats

3.1. Jeux de données et systèmes de référence

Les expériences ont été menées sur des tâches de traduction impliquant plusieurs langues (par ex., anglais-allemand, anglais-chinois) et domaines (Juridique, Informatique, Médical). Le LLM principal utilisé était le text-davinci-003 d'OpenAI. Les systèmes de référence incluaient des systèmes NMT spécifiques à un domaine, performants et bien réglés, entraînés sur de grands corpus bilingues.

Points forts de l'expérimentation

Modèle : GPT-3.5 (text-davinci-003)
Métrique d'évaluation : Score BLEU
Comparaison clé : TMP-LM vs. NMT spécifique au domaine à l'état de l'art

3.2. Résultats clés et analyse

Les résultats étaient frappants :

Gains massifs en BLEU : L'utilisation de prompts de TM de haute qualité a amélioré les performances de traduction zero-shot du LLM de 20 à 30 points BLEU sur diverses tâches. Cela transforme un LLM d'un traducteur médiocre en un traducteur très compétent.
Compétitif avec le NMT à l'état de l'art : Les performances du LLM avec prompting étaient comparables, et parfois supérieures, à celles des systèmes NMT à l'état de l'art spécifiquement entraînés sur de grandes quantités de données du domaine. C'est une découverte significative, car elle suggère que les LLM avec un prompting approprié peuvent égaler les performances de modèles spécialisés sans entraînement spécifique à la tâche.
Sensibilité au modèle de prompt : Le modèle structuré (CODE) a généralement produit des traductions plus fiables et de meilleure qualité que le modèle en langage naturel (INSTRUCTION), soulignant l'importance d'une ingénierie de prompts précise.

Description du graphique (implicite) : Un diagramme en barres montrerait trois groupes pour chaque paire de langues/domaine : 1) LLM Zero-Shot (BLEU bas), 2) LLM + TMP-LM (BLEU très élevé), 3) Référence NMT à l'état de l'art (BLEU élevé, similaire au groupe 2). Les barres des groupes 2 et 3 seraient très proches, dominant toutes deux le groupe 1.

4. Analyse technique & Idées fondamentales

Idée fondamentale : La révélation révolutionnaire de l'article est que la capacité de traduction d'un LLM n'est pas fixe mais est fonction de son contexte. Le modèle brut est un mauvais traducteur, mais lorsque son contexte est enrichi avec des exemples de traduction pertinents et de haute fidélité (TM), il débloque des performances rivalisant avec les systèmes NMT sur mesure. Cela redéfinit fondamentalement les LLM, passant de modèles statiques à des moteurs de traduction dynamiques et programmables par le contexte. Cela s'aligne sur le changement de paradigme plus large mis en avant par les chercheurs du Stanford Center for Research on Foundation Models, qui postulent que la « connaissance » et les « capacités » d'un modèle sont de plus en plus définies par une activation basée sur le prompt plutôt que par les seuls poids statiques.

Flux logique : L'argument est élégant et convaincant. 1) Les LLM possèdent de fortes capacités d'apprentissage en contexte et de suivi d'instructions (comme démontré dans des travaux comme « Training language models to follow instructions with human feedback » d'Ouyang et al.). 2) La traduction est une tâche bien définie qui peut être décrite par des exemples. 3) Les TM sont des paires d'exemples curées et de haute qualité. 4) Par conséquent, présenter des TM comme exemples en contexte devrait, et fait effectivement, améliorer considérablement la qualité de traduction. La logique est imparable et les preuves expérimentales sont solides.

Forces & Faiblesses : La force est indéniable : une méthode simple et non invasive produit des gains massifs. Elle démocratise la TA de haute qualité en exploitant les actifs de TM existants et les LLM disponibles sur étagère. Cependant, les faiblesses résident dans les dépendances. Premièrement, elle est critiquement dépendante de la qualité et de la pertinence des correspondances de TM récupérées — garbage in, garbage out. Deuxièmement, elle hérite de toutes les limitations des LLM : coût, latence et contraintes de la fenêtre de contexte (à la manière du problème « Lost-in-the-middle » identifié par Liu et al.). Troisièmement, comme l'article le suggère, la méthode est fragile ; le mauvais modèle de prompt peut dégrader les performances. C'est plus de l'alchimie que de l'ingénierie à ce stade.

Perspectives actionnables : Pour les praticiens, c'est un appel clair à cesser de considérer les LLM comme des traducteurs prêts à l'emploi et à commencer à les voir comme des systèmes optimisables par prompt. L'investissement doit passer de l'entraînement des modèles à la construction de systèmes de récupération robustes pour les TM et au développement de modèles de prompts standardisés et optimisés pour différents domaines (similaire à la façon dont la communauté a standardisé le réglage fin de BERT). Pour les chercheurs, la prochaine frontière est de rendre ce processus plus robuste et efficace — explorer comment compresser la connaissance des TM en prompts plus efficaces ou comment hybrider le prompting avec un réglage fin léger pour réduire la longueur du contexte et le coût.

5. Cadre d'analyse : Un exemple sans code

Considérons un cabinet de traduction juridique disposant d'une vaste TM de clauses contractuelles. Auparavant, un système NMT aurait nécessité un réentraînement sur de nouvelles données juridiques pour s'améliorer. Avec TMP-LM :

Entrée : Nouvelle phrase source : « The indemnity clause shall survive termination of this Agreement. »
Récupération : Le système recherche dans la TM juridique et trouve deux clauses similaires, précédemment traduites :
- TM1 : Source : « This confidentiality obligation shall survive the expiration of the contract. » → Cible : « La obligación de confidencialidad sobrevivirá a la expiración del contrato. »
- TM2 : Source : « The warranty shall survive delivery and inspection. » → Cible : « La garantía sobrevivirá a la entrega y la inspección. »

Construction du prompt (style CODE) : Le système construit ce prompt pour le LLM :

[langue-src]=[This confidentiality obligation shall survive the expiration of the contract.] [langue-cible]=[La obligación de confidencialidad sobrevivirá a la expiración del contrato.]
[langue-src]=[The warranty shall survive delivery and inspection.] [langue-cible]=[La garantía sobrevivirá a la entrega y la inspección.]
[langue-src]=[The indemnity clause shall survive termination of this Agreement.] [langue-cible]=

Sortie : Le LLM, reconnaissant le motif (« X shall survive Y » → « X sobrevivirá a Y »), génère une traduction stylistiquement cohérente et juridiquement précise : « La cláusula de indemnización sobrevivirá a la terminación de este Acuerdo. »

Ce cadre transforme le LLM en un assistant de traduction sensible au contexte qui adhère à la terminologie et au style établis par le cabinet.

6. Applications futures & Directions de recherche

Systèmes hybrides dynamiques : Les futurs systèmes de TA pourraient basculer de manière transparente entre un NMT réglé finement pour le texte général et TMP-LM pour les domaines riches en TM (juridique, médical, technique), optimisant ainsi qualité et coût.
Au-delà des TM bilingues : Étendre le concept aux mémoires de traduction multilingues, permettant une traduction pivot few-shot ou une adaptation de style à travers plusieurs langues.
Apprentissage actif & Curation de TM : Utiliser les scores de confiance du LLM ou les désaccords avec les TM existantes pour signaler des erreurs potentielles dans les TM humaines ou suggérer de nouvelles entrées aux post-éditeurs humains, créant ainsi une boucle de traduction auto-améliorante.
Intégration avec des LLM plus petits et spécialisés : Appliquer TMP-LM à des LLM open-source plus efficaces (comme Llama ou Mistral) spécifiquement réglés finement pour les tâches de traduction, réduisant la dépendance aux API volumineuses, généralistes et coûteuses.
Benchmarks de prompting standardisés : La communauté a besoin de benchmarks comme « Prompt-MT » pour évaluer systématiquement différentes stratégies de prompting pour la traduction à travers divers LLM, similaire au rôle de WMT pour le NMT traditionnel.

7. Références

Mu, Y., Reheman, A., Cao, Z., et al. (2023). Augmenting Large Language Model Translators via Translation Memories. arXiv preprint arXiv:2305.17367.
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Khandelwal, U., Levy, O., Jurafsky, D., et al. (2021). Generalization through memorization: Nearest neighbor language models. International Conference on Learning Representations (ICLR).
Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models. Stanford Center for Research on Foundation Models.
Liu, N. F., Lin, K., Hewitt, J., et al. (2023). Lost in the middle: How language models use long contexts. arXiv preprint arXiv:2307.03172.
Reheman, A., Cao, Z., Li, B., et al. (2023). One-shot learning for neural machine translation with translation memories. Findings of the Association for Computational Linguistics.