透過翻譯記憶體增強大型語言模型翻譯效能

1. 緒論

本文研究一種新穎的方法，透過利用大型語言模型新興的上下文學習能力來增強機器翻譯。其核心前提是，翻譯記憶體——即過往人工翻譯的資料庫——可以作為大型語言模型極其有效的少量樣本提示，引導其產生更準確且更符合領域需求的翻譯，而無需修改模型架構或進行微調。

本研究與先前的方法形成對比，先前方法或需修改神經機器翻譯模型架構，或需建立獨立的翻譯知識庫。相比之下，所提出的方法——針對大型語言模型的翻譯記憶體提示法——是一種輕量級、僅需提示的技術，它利用了大型語言模型固有的能力，即理解並遵循其上下文視窗中呈現的指令。

2. 方法論：針對大型語言模型的翻譯記憶體提示法 (TMP-LM)

TMP-LM 是一個簡單而強大的框架，透過將相關的翻譯記憶體範例置於翻譯查詢之前，將翻譯知識注入大型語言模型。該過程包括：1) 針對給定的輸入句子，從翻譯記憶體中檢索相似的源語句及其翻譯。2) 按照特定範本將這些（源語句，目標語句）對格式化為連貫的提示。3) 將此提示以及新的源語句呈現給大型語言模型進行翻譯。

2.1. 提示範本設計

本文探討了不同的提示風格，以有效地向大型語言模型傳達翻譯任務和範例。文中強調了兩種主要範本：

指令式範本： 使用自然語言指令。例如：「如果從英文到法文，'X1' 的翻譯是 'Y1'，且 'X2' 的翻譯是 'Y2'，那麼 'X_new' 的翻譯是什麼？僅需提供翻譯結果。」
結構化範本： 使用更正式、鍵值對的結構。例如："[src-lang]=[X1] [tgt-lang]=[Y1] [src-lang]=[X2] [tgt-lang]=[Y2] [src-lang]=[X_new] [tgt-lang]="

範本的選擇對大型語言模型的表現有顯著影響，結構化範本通常能減少歧義，從而產生更一致的輸出。

2.2. TMP-LM 框架

其核心機制可以抽象化。給定一個輸入句子 $x$，一個翻譯記憶體檢索函數 $R(x)$ 會找到 $k$ 個最相似的源-目標語句對 $(x_i^{tm}, y_i^{tm})$。一個提示建構函數 $C(\{(x_i^{tm}, y_i^{tm})\}_{i=1}^k, x)$ 將這些語句對格式化為最終提示 $P$。然後，表示為 $M$ 的大型語言模型生成翻譯：$\hat{y} = M(P)$。

其有效性取決於大型語言模型執行上下文類比推理的能力——識別所提供範例中的模式，並將其應用於新的查詢。

3. 實驗設定與結果

3.1. 資料集與基準模型

實驗在多種語言對（例如，英-德、英-中）和多個領域（法律、資訊科技、醫學）的翻譯任務上進行。主要使用的大型語言模型是 OpenAI 的 text-davinci-003。基準模型包括在大型雙語語料庫上訓練的、經過良好微調的強大領域特定神經機器翻譯系統。

實驗重點摘要

模型： GPT-3.5 (text-davinci-003)
評估指標： BLEU 分數
關鍵比較： TMP-LM 對比最先進的領域微調神經機器翻譯模型

3.2. 關鍵結果與分析

結果非常顯著：

BLEU 分數大幅提升： 使用高品質的翻譯記憶體提示，將大型語言模型的零樣本翻譯表現提升了 20 到 30 個 BLEU 分數點，涵蓋多項任務。這使得大型語言模型從平庸的翻譯器轉變為能力極強的翻譯器。
與最先進神經機器翻譯模型競爭： 經過提示的大型語言模型表現與、有時甚至超越了那些專門在大規模領域內資料上訓練的最先進神經機器翻譯系統。這是一個重要的發現，因為它表明，透過適當的提示，大型語言模型無需進行特定任務的訓練，即可達到專業模型的表現水準。
範本敏感性： 結構化範本通常比自然語言指令範本能產生更可靠、更高品質的翻譯，這凸顯了精確提示工程的重要性。

圖表描述： 假設的長條圖會為每個語言對/領域顯示三組數據：1) 大型語言模型零樣本（低 BLEU），2) 大型語言模型 + TMP-LM（極高 BLEU），3) 最先進神經機器翻譯基準模型（高 BLEU，與第 2 組相近）。第 2 組和第 3 組的長條高度將非常接近，且都遠高於第 1 組。

4. 技術分析與核心洞見

核心洞見： 本文的突破性發現是，大型語言模型的翻譯能力並非固定不變，而是其上下文的函數。原始模型是一個糟糕的翻譯器，但當其上下文被注入相關、高保真度的翻譯範例（翻譯記憶體）時，它便能釋放出可與專用神經機器翻譯系統相媲美的效能。這從根本上將大型語言模型重新定位，從靜態模型轉變為動態的、可透過上下文編程的翻譯引擎。這與史丹佛大學基礎模型研究中心的研究人員所強調的更廣泛的典範轉移相一致，他們認為模型的「知識」和「能力」越來越多地由基於提示的啟動來定義，而不僅僅是靜態的權重。

邏輯流程： 論證過程優雅且具說服力。1) 大型語言模型具有強大的上下文學習和指令遵循能力（如 Ouyang 等人的研究所示）。2) 翻譯是一項可以透過範例來描述的明確定義的任務。3) 翻譯記憶體是經過整理的高品質範例對。4) 因此，將翻譯記憶體作為上下文範例呈現，應該且確實能顯著提升翻譯品質。邏輯嚴密，實驗證據充分。

優點與缺陷： 其優點無可否認：一種簡單、非侵入性的方法帶來了巨大的效益。它透過利用現有的翻譯記憶體資產和現成的大型語言模型，使高品質機器翻譯民主化。然而，其缺陷在於依賴性。首先，它極度依賴檢索到的翻譯記憶體匹配項的品質和相關性——輸入垃圾，輸出垃圾。其次，它繼承了所有大型語言模型的限制：成本、延遲和上下文視窗限制。第三，正如本文所暗示的，該方法較為脆弱；錯誤的提示範本可能會降低效能。在現階段，它更像是煉金術而非工程學。

可操作洞見： 對於從業者而言，這是一個明確的呼籲：停止將大型語言模型視為開箱即用的翻譯器，而應開始將其視為可透過提示優化的系統。投資必須從模型訓練轉向為翻譯記憶體建立穩健的檢索系統，並為不同領域開發標準化、優化的提示範本（類似於社群如何標準化 BERT 微調）。對於研究人員而言，下一個前沿是使此過程更加穩健和高效——探索如何將翻譯記憶體知識壓縮成更高效的提示，或如何將提示法與輕量級微調相結合，以減少上下文長度和成本。

5. 分析框架：非程式碼範例

考慮一家擁有大量合約條款翻譯記憶體的法律翻譯公司。以往，神經機器翻譯系統需要針對新的法律資料進行重新訓練才能改進。而使用 TMP-LM：

輸入： 新的源語句：「The indemnity clause shall survive termination of this Agreement.」
檢索： 系統搜尋法律翻譯記憶體，找到兩個相似的、先前翻譯過的條款：
- TM1：源語句：「This confidentiality obligation shall survive the expiration of the contract.」 → 目標語句：「La obligación de confidencialidad sobrevivirá a la expiración del contrato.」
- TM2：源語句：「The warranty shall survive delivery and inspection.」 → 目標語句：「La garantía sobrevivirá a la entrega y la inspección.」

提示建構： 系統為大型語言模型建立以下提示：

[src-lang]=[This confidentiality obligation shall survive the expiration of the contract.] [tgt-lang]=[La obligación de confidencialidad sobrevivirá a la expiración del contrato.]
[src-lang]=[The warranty shall survive delivery and inspection.] [tgt-lang]=[La garantía sobrevivirá a la entrega y la inspección.]
[src-lang]=[The indemnity clause shall survive termination of this Agreement.] [tgt-lang]=

輸出： 大型語言模型識別出模式（「X shall survive Y」 → 「X sobrevivirá a Y」），生成一個風格一致且法律上準確的翻譯：「La cláusula de indemnización sobrevivirá a la terminación de este Acuerdo.」

此框架將大型語言模型轉變為一個具有上下文感知能力的翻譯助手，遵循公司既定的術語和風格。

6. 未來應用與研究方向

動態混合系統： 未來的機器翻譯系統可能會在針對通用文本的微調神經機器翻譯，與針對擁有豐富翻譯記憶體的領域（法律、醫學、技術）的 TMP-LM 之間無縫切換，以優化品質和成本。
超越雙語翻譯記憶體： 將此概念擴展到多語言翻譯記憶體，實現少量樣本的樞紐翻譯或多語言間的風格適應。
主動學習與翻譯記憶體管理： 利用大型語言模型的信心分數或與現有翻譯記憶體的分歧，來標記人工翻譯記憶體中的潛在錯誤，或為人工後編輯人員建議新條目，從而建立一個自我改進的翻譯循環。
與更小、更專業的大型語言模型整合： 將 TMP-LM 應用於更高效、開源的大型語言模型（如 Llama 或 Mistral），這些模型專門針對翻譯任務進行微調，從而減少對大型、通用且昂貴的 API 的依賴。
標準化提示基準測試： 社群需要像「Prompt-MT」這樣的基準測試，來系統性地評估不同大型語言模型在翻譯任務上的各種提示策略，類似於 WMT 對傳統神經機器翻譯的作用。

7. 參考文獻

Mu, Y., Reheman, A., Cao, Z., et al. (2023). Augmenting Large Language Model Translators via Translation Memories. arXiv preprint arXiv:2305.17367.
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Khandelwal, U., Levy, O., Jurafsky, D., et al. (2021). Generalization through memorization: Nearest neighbor language models. International Conference on Learning Representations (ICLR).
Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models. Stanford Center for Research on Foundation Models.
Liu, N. F., Lin, K., Hewitt, J., et al. (2023). Lost in the middle: How language models use long contexts. arXiv preprint arXiv:2307.03172.
Reheman, A., Cao, Z., Li, B., et al. (2023). One-shot learning for neural machine translation with translation memories. Findings of the Association for Computational Linguistics.