利用翻譯記憶庫增強大型語言模型翻譯能力

1. 引言

本文研究一種新穎方法，利用大型語言模型（LLM）新興嘅上下文學習能力來增強機器翻譯（MT）。核心前提係，翻譯記憶庫（TM）——即過往人工翻譯嘅數據庫——可以作為LLM極其有效嘅少量示例提示，引導佢哋產生更準確、更符合領域要求嘅翻譯，而無需修改模型架構或進行微調。

呢項工作係針對以往需要修改神經機器翻譯（NMT）模型架構或構建獨立翻譯知識庫嘅方法。相比之下，本文提出嘅方法——適用於大型語言模型嘅翻譯記憶庫提示法（TMP-LM）——係一種輕量級、僅需提示嘅技術，佢充分利用咗LLM固有嘅能力，去理解同跟隨其上下文窗口中呈現嘅指令。

2. 方法論：適用於LLM嘅翻譯記憶庫提示法（TMP-LM）

TMP-LM係一個簡單而強大嘅框架，通過將相關嘅TM示例附加到翻譯查詢前面，將翻譯知識注入LLM。過程包括：1）從TM中為給定輸入句子檢索相似嘅源語句及其翻譯。2）按照特定模板將呢啲（源語句，目標語句）對格式化為一個連貫嘅提示。3）將此提示連同新嘅源語句一齊呈現俾LLM進行翻譯。

2.1. 提示模板設計

本文探討咗唔同嘅提示風格，以有效地向LLM傳達翻譯任務同示例。重點介紹咗兩種主要模板：

指令式模板（INSTRUCTION）： 使用自然語言指令。例如：「如果由英文翻譯成法文，'X1' 嘅翻譯係 'Y1'，而 'X2' 嘅翻譯係 'Y2'，咁 'X_new' 嘅翻譯係咩？只需提供翻譯結果。」
結構化模板（CODE）： 使用更正式嘅鍵值對結構。例如：「[src-lang]=[X1] [tgt-lang]=[Y1] [src-lang]=[X2] [tgt-lang]=[Y2] [src-lang]=[X_new] [tgt-lang]=」

模板嘅選擇對LLM嘅表現有顯著影響，結構化模板通常通過減少歧義性來產生更一致嘅輸出。

2.2. TMP-LM框架

核心機制可以抽象化。給定一個輸入句子 $x$，一個TM檢索函數 $R(x)$ 會搵到 $k$ 個最相似嘅源-目標對 $(x_i^{tm}, y_i^{tm})$。一個提示構造函數 $C(\{(x_i^{tm}, y_i^{tm})\}_{i=1}^k, x)$ 將佢哋格式化為最終提示 $P$。然後，表示為 $M$ 嘅LLM生成翻譯：$\hat{y} = M(P)$。

其有效性取決於LLM執行上下文類比推理嘅能力——識別所提供示例中嘅模式並將其應用於新查詢。

3. 實驗設置與結果

3.1. 數據集與基線模型

實驗喺多種語言（例如，英文-德文、英文-中文）同領域（法律、IT、醫學）嘅翻譯任務上進行。主要使用嘅LLM係OpenAI嘅 text-davinci-003。基線模型包括喺大型雙語語料庫上訓練嘅強大、經過良好微調嘅領域特定NMT系統。

實驗重點

模型： GPT-3.5 (text-davinci-003)
評估指標： BLEU分數
關鍵比較： TMP-LM 對比最先進嘅領域微調NMT

3.2. 主要結果與分析

結果非常顯著：

BLEU分數大幅提升： 使用高質量TM提示，將LLM嘅零樣本翻譯表現喺唔同任務中提升咗20到30個BLEU分。呢個將LLM從一個普通嘅翻譯器轉變為一個能力極強嘅翻譯器。
與最先進NMT媲美： 經過提示嘅LLM嘅表現與、甚至有時候超越咗專門喺大規模領域內數據上訓練嘅最先進NMT系統。呢個係一個重要發現，因為佢表明，經過適當提示嘅LLM可以匹配專門模型嘅表現，而無需進行任務特定嘅訓練。
模板敏感性： 結構化（CODE）模板通常比自然語言（INSTRUCTION）模板產生更可靠、更高質量嘅翻譯，突顯咗精確提示工程嘅重要性。

圖表描述（隱含）： 一個柱狀圖會為每個語言對/領域顯示三組數據：1）LLM零樣本（低BLEU），2）LLM + TMP-LM（極高BLEU），3）最先進NMT基線（高BLEU，與第2組相似）。第2組同第3組嘅柱狀圖會非常接近，兩者都遠高於第1組。

4. 技術分析與核心洞見

核心洞見： 本文嘅突破性發現係，LLM嘅翻譯能力並非固定不變，而係其上下文嘅函數。原始模型係一個差勁嘅翻譯器，但當其上下文被注入相關、高保真度嘅翻譯示例（TM）時，佢就能釋放出媲美定制NMT系統嘅性能。呢個從根本上將LLM重新定義為從靜態模型轉變為動態、可通過上下文編程嘅翻譯引擎。佢與史丹福大學基礎模型研究中心嘅研究人員所強調嘅更廣泛範式轉變相一致，佢哋認為模型嘅「知識」同「能力」越來越多地由基於提示嘅激活來定義，而不僅僅係靜態權重。

邏輯流程： 論證優雅而有力。1）LLM具有強大嘅上下文學習同指令跟隨能力（正如Ouyang等人喺「Training language models to follow instructions with human feedback」等工作中所展示）。2）翻譯係一個可以通過示例來描述嘅明確定義嘅任務。3）TM係經過整理嘅高質量示例對。4）因此，將TM作為上下文示例呈現，應該、並且確實能夠顯著提高翻譯質量。邏輯嚴密，實驗證據充分。

優點與缺點： 優點毋庸置疑：一個簡單、非侵入性嘅方法帶來咗巨大嘅增益。佢通過利用現有TM資產同現成LLM，實現咗高質量MT嘅普及化。然而，缺點在於依賴性。首先，佢極度依賴於檢索到嘅TM匹配項嘅質量同相關性——垃圾入，垃圾出。其次，佢繼承咗所有LLM嘅限制：成本、延遲同上下文窗口限制（正如Liu等人指出嘅「Lost-in-the-middle」問題）。第三，正如本文暗示，呢個方法比較脆弱；錯誤嘅提示模板可能會降低性能。喺現階段，佢更像係煉金術而非工程學。

可行洞見： 對於從業者嚟講，呢個係一個明確嘅呼籲，要停止將LLM視為開箱即用嘅翻譯器，而開始將佢哋視為可通過提示優化嘅系統。投資必須從模型訓練轉向構建穩健嘅TM檢索系統，以及為唔同領域開發標準化、優化嘅提示模板（類似於社區如何標準化BERT微調）。對於研究人員嚟講，下一個前沿係使呢個過程更加穩健同高效——探索點樣將TM知識壓縮成更高效嘅提示，或者點樣將提示與輕量級微調結合，以減少上下文長度同成本。

5. 分析框架：非代碼示例

考慮一間擁有龐大合同條款TM嘅法律翻譯公司。以前，NMT系統需要喺新嘅法律數據上重新訓練才能改進。使用TMP-LM：

輸入： 新源語句：「The indemnity clause shall survive termination of this Agreement.」
檢索： 系統搜索法律TM並搵到兩個相似、先前翻譯過嘅條款：
- TM1：源語句：「This confidentiality obligation shall survive the expiration of the contract.」 → 目標語句：「La obligación de confidencialidad sobrevivirá a la expiración del contrato.」
- TM2：源語句：「The warranty shall survive delivery and inspection.」 → 目標語句：「La garantía sobrevivirá a la entrega y la inspección.」

提示構建（CODE風格）： 系統為LLM構建呢個提示：

[src-lang]=[This confidentiality obligation shall survive the expiration of the contract.] [tgt-lang]=[La obligación de confidencialidad sobrevivirá a la expiración del contrato.]
[src-lang]=[The warranty shall survive delivery and inspection.] [tgt-lang]=[La garantía sobrevivirá a la entrega y la inspección.]
[src-lang]=[The indemnity clause shall survive termination of this Agreement.] [tgt-lang]=

輸出： LLM識別出模式（「X shall survive Y」 → 「X sobrevivirá a Y」），生成一個風格一致且法律上準確嘅翻譯：「La cláusula de indemnización sobrevivirá a la terminación de este Acuerdo.」

呢個框架將LLM變成一個具有上下文感知能力嘅翻譯助手，佢遵循公司已建立嘅術語同風格。

6. 未來應用與研究方向

動態混合系統： 未來嘅MT系統可能會喺針對通用文本嘅微調NMT同針對擁有豐富TM嘅領域（法律、醫學、技術）嘅TMP-LM之間無縫切換，以優化質量同成本。
超越雙語TM： 將概念擴展到多語言翻譯記憶庫，實現少量示例嘅樞紐翻譯或跨越多種語言嘅風格適應。
主動學習與TM管理： 使用LLM置信度分數或與現有TM嘅分歧，來標記人工TM中嘅潛在錯誤，或為人工後期編輯員建議新條目，創建一個自我改進嘅翻譯循環。
與更小、更專門化嘅LLM集成： 將TMP-LM應用於更高效、開源嘅LLM（如Llama或Mistral），呢啲LLM專門為翻譯任務進行微調，減少對大型、通用且昂貴API嘅依賴。
標準化提示基準測試： 社區需要像「Prompt-MT」咁樣嘅基準測試，來系統評估唔同LLM喺翻譯上嘅唔同提示策略，類似於WMT對於傳統NMT嘅作用。

7. 參考文獻

Mu, Y., Reheman, A., Cao, Z., et al. (2023). Augmenting Large Language Model Translators via Translation Memories. arXiv preprint arXiv:2305.17367.
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Khandelwal, U., Levy, O., Jurafsky, D., et al. (2021). Generalization through memorization: Nearest neighbor language models. International Conference on Learning Representations (ICLR).
Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models. Stanford Center for Research on Foundation Models.
Liu, N. F., Lin, K., Hewitt, J., et al. (2023). Lost in the middle: How language models use long contexts. arXiv preprint arXiv:2307.03172.
Reheman, A., Cao, Z., Li, B., et al. (2023). One-shot learning for neural machine translation with translation memories. Findings of the Association for Computational Linguistics.