Усиление переводчиков на основе больших языковых моделей с помощью переводческих памятью

1. Введение

В данной статье исследуется новый подход к улучшению машинного перевода (МП) за счёт использования возникающих способностей больших языковых моделей (LLM) к контекстному обучению. Основная предпосылка заключается в том, что Переводческие Памяти (ТМ) — базы данных предыдущих человеческих переводов — могут служить высокоэффективными few-shot промптами для LLM, направляя их на создание более точных и соответствующих предметной области переводов без необходимости изменения архитектуры или дообучения модели.

Работа противопоставляет себя предыдущим методам, которые требовали либо модификации архитектур моделей нейронного машинного перевода (NMT), либо создания отдельных баз переводческих знаний. В отличие от них, предлагаемый метод, Промптинг с Переводческой Памятью для Больших Языковых Моделей (TMP-LM), представляет собой лёгкую, исключительно промптинг-технику, которая использует присущую LLM способность понимать и следовать инструкциям, представленным в её контекстном окне.

2. Методология: Промптинг с Переводческой Памятью для LLM (TMP-LM)

TMP-LM — это простой, но мощный фреймворк, который внедряет переводческие знания в LLM путём добавления релевантных примеров из ТМ к запросу на перевод. Процесс включает: 1) Извлечение похожих исходных предложений и их переводов из ТМ для заданного входного предложения. 2) Форматирование этих пар (исходный, целевой) в связный промпт по определённому шаблону. 3) Представление этого промпта, за которым следует новое исходное предложение, LLM для перевода.

2.1. Дизайн шаблона промпта

В статье исследуются различные стили промптов для эффективной передачи задачи перевода и примеров LLM. Выделяются два основных шаблона:

Инструкционный шаблон (INSTRUCTION): Использует инструкции на естественном языке. Например: «Если перевод 'X1' с английского на французский — это 'Y1', а перевод 'X2' — 'Y2', то каков перевод 'X_new'? Требуется только результат перевода.»
Структурированный шаблон (CODE): Использует более формальную структуру «ключ-значение». Например: «[src-lang]=[X1] [tgt-lang]=[Y1] [src-lang]=[X2] [tgt-lang]=[Y2] [src-lang]=[X_new] [tgt-lang]=»

Выбор шаблона существенно влияет на производительность LLM, причём структурированные шаблоны часто дают более стабильные результаты, снижая неоднозначность.

2.2. Фреймворк TMP-LM

Основной механизм можно абстрагировать. Для входного предложения $x$ функция извлечения из ТМ $R(x)$ находит $k$ наиболее похожих пар исходный-целевой $(x_i^{tm}, y_i^{tm})$. Функция-конструктор промпта $C(\{(x_i^{tm}, y_i^{tm})\}_{i=1}^k, x)$ форматирует их в финальный промпт $P$. Затем LLM, обозначаемая как $M$, генерирует перевод: $\hat{y} = M(P)$.

Эффективность зависит от способности LLM выполнять контекстное аналогическое рассуждение — выявлять паттерн в предоставленных примерах и применять его к новому запросу.

3. Экспериментальная установка и результаты

3.1. Наборы данных и базовые модели

Эксперименты проводились на задачах перевода для нескольких языковых пар (например, английский-немецкий, английский-китайский) и предметных областей (юридическая, IT, медицинская). Основной используемой LLM была text-davinci-003 от OpenAI. В качестве базовых моделей использовались мощные, хорошо дообученные предметно-ориентированные системы NMT, обученные на больших двуязычных корпусах.

Ключевые моменты эксперимента

Модель: GPT-3.5 (text-davinci-003)
Метрика оценки: BLEU Score
Ключевое сравнение: TMP-LM vs. Современная предметно-дообученная NMT

3.2. Ключевые результаты и анализ

Результаты были впечатляющими:

Значительный прирост BLEU: Использование высококачественных промптов из ТМ улучшило zero-shot производительность перевода LLM на от 20 до 30 баллов BLEU в различных задачах. Это превращает LLM из посредственного переводчика в высококомпетентного.
Конкурентоспособность с современными NMT: Производительность LLM с промптингом была сопоставима, а иногда и превосходила производительность современных систем NMT, специально обученных на больших объёмах предметных данных. Это важное открытие, поскольку оно предполагает, что LLM с соответствующим промптингом могут соответствовать производительности специализированных моделей без предметно-ориентированного обучения.
Чувствительность к шаблону: Структурированный шаблон (CODE), как правило, давал более надёжные и качественные переводы, чем шаблон на естественном языке (INSTRUCTION), что подчёркивает важность точного инжиниринга промптов.

Описание диаграммы (имплицитное): Столбчатая диаграмма показала бы три группы для каждой языковой пары/предметной области: 1) LLM Zero-Shot (низкий BLEU), 2) LLM + TMP-LM (очень высокий BLEU), 3) Базовая современная NMT (высокий BLEU, аналогично группе 2). Столбцы для групп 2 и 3 были бы близко сопоставимы, значительно превосходя группу 1.

4. Технический анализ и ключевые инсайты

Ключевой инсайт: Прорывное откровение статьи заключается в том, что способность LLM к переводу не фиксирована, а является функцией её контекста. Сырая модель — плохой переводчик, но когда её контекст наполняется релевантными, высококачественными примерами переводов (ТМ), она раскрывает производительность, сопоставимую со специализированными системами NMT. Это фундаментально переосмысливает LLM: из статических моделей они превращаются в динамические, программируемые контекстом движки перевода. Это согласуется с более широким парадигмальным сдвигом, отмеченным исследователями из Центра исследования базовых моделей Стэнфорда, которые утверждают, что «знания» и «способности» модели всё больше определяются активацией через промптинг, а не только статическими весами.

Логическая последовательность: Аргументация элегантна и убедительна. 1) LLM обладают сильными способностями к контекстному обучению и следованию инструкциям (как показано в работах вроде «Training language models to follow instructions with human feedback» Ouyang et al.). 2) Перевод — это чётко определённая задача, которую можно описать с помощью примеров. 3) ТМ — это курированные, высококачественные пары примеров. 4) Следовательно, представление ТМ в качестве контекстных примеров должно, и действительно, резко улучшает качество перевода. Логика безупречна, а экспериментальные доказательства убедительны.

Сильные стороны и недостатки: Сильная сторона неоспорима: простой, ненавязчивый метод даёт огромный прирост. Он демократизирует высококачественный МП, используя существующие активы ТМ и готовые LLM. Однако недостатки кроются в зависимостях. Во-первых, метод критически зависит от качества и релевантности извлечённых совпадений из ТМ — мусор на входе, мусор на выходе. Во-вторых, он наследует все ограничения LLM: стоимость, задержка и ограничения контекстного окна (как в проблеме «Lost-in-the-middle», выявленной Liu et al.). В-третьих, как намекает статья, метод хрупок; неправильный шаблон промпта может ухудшить производительность. На данном этапе это скорее алхимия, чем инженерия.

Практические инсайты: Для практиков это призыв перестать рассматривать LLM как готовых переводчиков и начать видеть в них системы, оптимизируемые промптингом. Инвестиции должны сместиться с обучения моделей на создание надёжных систем извлечения для ТМ и разработку стандартизированных, оптимизированных шаблонов промптов для разных предметных областей (аналогично тому, как сообщество стандартизировало дообучение BERT). Для исследователей следующая граница — сделать этот процесс более устойчивым и эффективным: изучить, как сжать знания ТМ в более эффективные промпты, или как гибридизировать промптинг с лёгким дообучением для сокращения длины контекста и стоимости.

5. Фреймворк анализа: пример без кода

Рассмотрим юридическую переводческую фирму с обширной ТМ договорных положений. Ранее системе NMT потребовалось бы переобучение на новых юридических данных для улучшения. С TMP-LM:

Вход: Новое исходное предложение: «The indemnity clause shall survive termination of this Agreement.»
Извлечение: Система ищет в юридической ТМ и находит два похожих, ранее переведённых положения:
- ТМ1: Исходное: «This confidentiality obligation shall survive the expiration of the contract.» → Целевое: «La obligación de confidencialidad sobrevivirá a la expiración del contrato.»
- ТМ2: Исходное: «The warranty shall survive delivery and inspection.» → Целевое: «La garantía sobrevivirá a la entrega y la inspección.»

Конструирование промпта (стиль CODE): Система строит этот промпт для LLM:

[src-lang]=[This confidentiality obligation shall survive the expiration of the contract.] [tgt-lang]=[La obligación de confidencialidad sobrevivirá a la expiración del contrato.]
[src-lang]=[The warranty shall survive delivery and inspection.] [tgt-lang]=[La garantía sobrevivirá a la entrega y la inspección.]
[src-lang]=[The indemnity clause shall survive termination of this Agreement.] [tgt-lang]=

Выход: LLM, распознав паттерн («X shall survive Y» → «X sobrevivirá a Y»), генерирует стилистически последовательный и юридически точный перевод: «La cláusula de indemnización sobrevivirá a la terminación de este Acuerdo.»

Этот фреймворк превращает LLM в контекстно-осведомлённого помощника по переводу, который придерживается установленной терминологии и стиля фирмы.

6. Будущие применения и направления исследований

Динамические гибридные системы: Будущие системы МП могут бесшовно переключаться между дообученными NMT для общего текста и TMP-LM для областей с богатыми ТМ (юридическая, медицинская, техническая), оптимизируя качество и стоимость.
За пределами двуязычных ТМ: Расширение концепции на многоязычные переводческие памяти, позволяющее выполнять few-shot pivot-перевод или адаптацию стиля для нескольких языков.
Активное обучение и курирование ТМ: Использование оценок уверенности LLM или расхождений с существующими ТМ для пометки потенциальных ошибок в человеческих ТМ или предложения новых записей для пост-редакторов, создавая самосовершенствующийся цикл перевода.
Интеграция с меньшими, специализированными LLM: Применение TMP-LM к более эффективным, открытым LLM (таким как Llama или Mistral), специально дообученным для задач перевода, что снижает зависимость от больших, универсальных и дорогих API.
Стандартизированные бенчмарки для промптинга: Сообществу нужны бенчмарки вроде «Prompt-MT» для систематической оценки различных стратегий промптинга для перевода на разных LLM, аналогично роли WMT для традиционного NMT.

7. Ссылки

Mu, Y., Reheman, A., Cao, Z., et al. (2023). Augmenting Large Language Model Translators via Translation Memories. arXiv preprint arXiv:2305.17367.
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Khandelwal, U., Levy, O., Jurafsky, D., et al. (2021). Generalization through memorization: Nearest neighbor language models. International Conference on Learning Representations (ICLR).
Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models. Stanford Center for Research on Foundation Models.
Liu, N. F., Lin, K., Hewitt, J., et al. (2023). Lost in the middle: How language models use long contexts. arXiv preprint arXiv:2307.03172.
Reheman, A., Cao, Z., Li, B., et al. (2023). One-shot learning for neural machine translation with translation memories. Findings of the Association for Computational Linguistics.