Meningkatkan Penterjemah Model Bahasa Besar melalui Memori Terjemahan

1. Pengenalan

Kertas ini menyiasat pendekatan baharu untuk meningkatkan terjemahan mesin (MT) dengan memanfaatkan keupayaan pembelajaran dalam konteks yang muncul pada Model Bahasa Besar (LLM). Premis terasnya ialah Memori Terjemahan (TM)—pangkalan data terjemahan manusia sebelumnya—boleh berfungsi sebagai petunjuk beberapa contoh yang sangat berkesan untuk LLM, membimbing mereka menghasilkan terjemahan yang lebih tepat dan sesuai dengan domain tanpa memerlukan perubahan seni bina atau penyelarasan halus.

Karya ini memposisikan dirinya berbanding kaedah sebelumnya yang sama ada memerlukan pengubahsuaian seni bina model Terjemahan Mesin Neural (NMT) atau membina pangkalan pengetahuan terjemahan yang berasingan. Sebaliknya, kaedah yang dicadangkan, Petunjuk Memori Terjemahan untuk Model Bahasa Besar (TMP-LM), adalah teknik ringan yang hanya menggunakan petunjuk, yang memanfaatkan keupayaan semula jadi LLM untuk memahami dan mengikuti arahan yang dibentangkan dalam tetingkap konteksnya.

2. Metodologi: Petunjuk Memori Terjemahan untuk LLM (TMP-LM)

TMP-LM adalah kerangka kerja yang mudah namun berkuasa yang menyuntik pengetahuan terjemahan ke dalam LLM dengan menambahkan contoh TM yang relevan pada pertanyaan terjemahan. Proses ini melibatkan: 1) Mengambil ayat sumber yang serupa dan terjemahannya daripada TM untuk ayat input yang diberikan. 2) Memformat pasangan (sumber, sasaran) ini menjadi petunjuk yang koheren mengikut templat tertentu. 3) Membentangkan petunjuk ini, diikuti dengan ayat sumber baharu, kepada LLM untuk diterjemahkan.

2.1. Reka Bentuk Templat Petunjuk

Kertas ini meneroka gaya petunjuk yang berbeza untuk menyampaikan tugas terjemahan dan contoh kepada LLM dengan berkesan. Dua templat utama diketengahkan:

Templat Arahan (INSTRUCTION): Menggunakan arahan bahasa semula jadi. Contohnya: "Jika terjemahan 'X1' daripada Bahasa Inggeris ke Bahasa Perancis ialah 'Y1' dan terjemahan 'X2' ialah 'Y2', maka apakah terjemahan 'X_baru'? Hanya hasil terjemahan diperlukan."
Templat Berstruktur (CODE): Menggunakan struktur pasangan kunci-nilai yang lebih formal. Contohnya: "[src-lang]=[X1] [tgt-lang]=[Y1] [src-lang]=[X2] [tgt-lang]=[Y2] [src-lang]=[X_baru] [tgt-lang]="

Pemilihan templat memberi kesan yang signifikan terhadap prestasi LLM, dengan templat berstruktur sering menghasilkan output yang lebih konsisten dengan mengurangkan kekaburan.

2.2. Kerangka TMP-LM

Mekanisme teras boleh diabstrakkan. Diberi ayat input $x$, fungsi pengambilan TM $R(x)$ mencari $k$ pasangan sumber-sasaran yang paling serupa $(x_i^{tm}, y_i^{tm})$. Fungsi pembina petunjuk $C(\{(x_i^{tm}, y_i^{tm})\}_{i=1}^k, x)$ memformat ini menjadi petunjuk akhir $P$. LLM, yang dilambangkan sebagai $M$, kemudian menjana terjemahan: $\hat{y} = M(P)$.

Keberkesanannya bergantung pada keupayaan LLM untuk melaksanakan penaakulan analogi dalam konteks—mengenal pasti corak dalam contoh yang diberikan dan mengaplikasikannya pada pertanyaan baharu.

3. Persediaan Eksperimen & Keputusan

3.1. Set Data dan Garis Dasar

Eksperimen dijalankan pada tugas terjemahan merentasi pelbagai bahasa (contohnya, Inggeris-Jerman, Inggeris-Cina) dan domain (Undang-undang, IT, Perubatan). LLM utama yang digunakan ialah text-davinci-003 daripada OpenAI. Garis dasar termasuk sistem NMT khusus domain yang kuat dan diselaraskan dengan baik yang dilatih pada korpus dwibahasa yang besar.

Sorotan Eksperimen

Model: GPT-3.5 (text-davinci-003)
Metrik Penilaian: Skor BLEU
Perbandingan Utama: TMP-LM vs. NMT Domain-tuned Terkini

3.2. Keputusan Utama dan Analisis

Keputusan adalah menakjubkan:

Peningkatan BLEU yang Besar: Menggunakan petunjuk TM berkualiti tinggi meningkatkan prestasi terjemahan sifar-tembak LLM sebanyak 20 hingga 30 mata BLEU merentasi pelbagai tugas. Ini mengubah LLM daripada penterjemah yang sederhana kepada penterjemah yang sangat kompeten.
Bersaing dengan NMT SOTA: Prestasi LLM yang dipetunjuk adalah setanding, dan kadangkala mengatasi, sistem NMS terkini yang dilatih khusus pada data dalam domain berskala besar. Ini adalah penemuan yang signifikan, kerana ia mencadangkan bahawa LLM dengan petunjuk yang sesuai boleh menyamai prestasi model khusus tanpa latihan khusus tugas.
Kepekaan Templat: Templat berstruktur (CODE) secara amnya menghasilkan terjemahan yang lebih boleh dipercayai dan berkualiti tinggi berbanding templat bahasa semula jadi (INSTRUCTION), menekankan kepentingan kejuruteraan petunjuk yang tepat.

Penerangan Carta (Implisit): Carta bar akan menunjukkan tiga kumpulan untuk setiap pasangan bahasa/domain: 1) LLM Sifar-Tembak (BLEU rendah), 2) LLM + TMP-LM (BLEU sangat tinggi), 3) Garis Dasar NMT SOTA (BLEU tinggi, serupa dengan kumpulan 2). Bar untuk kumpulan 2 dan 3 akan hampir sama, kedua-duanya jauh lebih tinggi daripada kumpulan 1.

4. Analisis Teknikal & Intipati Teras

Intipati Teras: Penemuan terobosan kertas ini ialah keupayaan terjemahan LLM tidak tetap tetapi merupakan fungsi konteksnya. Model mentah adalah penterjemah yang lemah, tetapi apabila konteksnya diisi dengan contoh terjemahan yang relevan dan berketepatan tinggi (TM), ia membuka prestasi yang setanding dengan sistem NMS khusus. Ini pada dasarnya mengubah kerangka LLM daripada model statik kepada enjin terjemahan dinamik yang boleh diprogramkan konteks. Ia selari dengan anjakan paradigma yang lebih luas yang diketengahkan oleh penyelidik di Pusat Penyelidikan Model Asas Stanford, yang berpendapat bahawa "pengetahuan" dan "keupayaan" model semakin ditakrifkan oleh pengaktifan berasaskan petunjuk dan bukan hanya berat statik.

Aliran Logik: Hujahnya elegan dan menarik. 1) LLM mempunyai keupayaan pembelajaran dalam konteks dan mengikut arahan yang kuat (seperti yang ditunjukkan dalam karya seperti "Training language models to follow instructions with human feedback" oleh Ouyang et al.). 2) Terjemahan adalah tugas yang jelas boleh diterangkan melalui contoh. 3) TM adalah pasangan contoh berkualiti tinggi yang dikurasi. 4) Oleh itu, membentangkan TM sebagai contoh dalam konteks sepatutnya, dan memang, meningkatkan kualiti terjemahan secara dramatik. Logiknya kukuh dan bukti eksperimennya teguh.

Kekuatan & Kelemahan: Kekuatannya tidak dapat dinafikan: kaedah mudah dan tidak invasif menghasilkan peningkatan yang besar. Ia mendemokrasikan MT berkualiti tinggi dengan memanfaatkan aset TM sedia ada dan LLM luar rak. Walau bagaimanapun, kelemahannya terletak pada kebergantungan. Pertama, ia sangat bergantung pada kualiti dan relevan padanan TM yang diambil—sampah masuk, sampah keluar. Kedua, ia mewarisi semua batasan LLM: kos, kependaman, dan kekangan tetingkap konteks (seperti masalah "Lost-in-the-middle" yang dikenal pasti oleh Liu et al.). Ketiga, seperti yang diisyaratkan oleh kertas, kaedah ini rapuh; templat petunjuk yang salah boleh menurunkan prestasi. Ia lebih kepada alkimia daripada kejuruteraan pada peringkat ini.

Intipati Boleh Tindak: Bagi pengamal, ini adalah seruan untuk berhenti melihat LLM sebagai penterjemah siap pakai dan mula melihatnya sebagai sistem yang boleh dioptimumkan petunjuk. Pelaburan mesti beralih daripada latihan model kepada membina sistem pengambilan TM yang teguh dan membangunkan templat petunjuk piawai dan dioptimumkan untuk domain yang berbeza (serupa dengan bagaimana komuniti memiawaikan penyelarasan halus BERT). Bagi penyelidik, sempadan seterusnya adalah menjadikan proses ini lebih teguh dan cekap—meneroka cara memampatkan pengetahuan TM kepada petunjuk yang lebih cekap atau cara menggabungkan petunjuk dengan penyelarasan halus ringan untuk mengurangkan panjang konteks dan kos.

5. Kerangka Analisis: Contoh Bukan Kod

Pertimbangkan firma terjemahan undang-undang dengan TM yang luas bagi klausa kontrak. Sebelum ini, sistem NMT memerlukan latihan semula pada data undang-undang baharu untuk diperbaiki. Dengan TMP-LM:

Input: Ayat sumber baharu: "Klausa indemniti akan terus berkuat kuasa selepas penamatan Perjanjian ini."
Pengambilan: Sistem mencari TM undang-undang dan menemui dua klausa yang serupa, yang pernah diterjemahkan sebelum ini:
- TM1: Sumber: "Kewajipan kerahsiaan ini akan terus berkuat kuasa selepas tamat tempoh kontrak." → Sasaran: "La obligación de confidencialidad sobrevivirá a la expiración del contrato."
- TM2: Sumber: "Jaminan akan terus berkuat kuasa selepas penghantaran dan pemeriksaan." → Sasaran: "La garantía sobrevivirá a la entrega y la inspección."

Pembinaan Petunjuk (gaya CODE): Sistem membina petunjuk ini untuk LLM:

[src-lang]=[This confidentiality obligation shall survive the expiration of the contract.] [tgt-lang]=[La obligación de confidencialidad sobrevivirá a la expiración del contrato.]
[src-lang]=[The warranty shall survive delivery and inspection.] [tgt-lang]=[La garantía sobrevivirá a la entrega y la inspección.]
[src-lang]=[The indemnity clause shall survive termination of this Agreement.] [tgt-lang]=

Output: LLM, mengenali corak ("X shall survive Y" → "X sobrevivirá a Y"), menjana terjemahan yang konsisten dari segi gaya dan tepat dari segi undang-undang: "La cláusula de indemnización sobrevivirá a la terminación de este Acuerdo."

Kerangka ini mengubah LLM menjadi pembantu terjemahan yang sedar konteks yang mematuhi terminologi dan gaya yang telah ditetapkan oleh firma.

6. Aplikasi Masa Depan & Hala Tuju Penyelidikan

Sistem Hibrid Dinamik: Sistem MT masa depan mungkin bertukar dengan lancar antara NMT yang diselaraskan halus untuk teks umum dan TMP-LM untuk domain dengan TM yang kaya (undang-undang, perubatan, teknikal), mengoptimumkan kualiti dan kos.
Melampaui TM Dwibahasa: Memperluaskan konsep kepada memori terjemahan pelbagai bahasa, membolehkan terjemahan pangsi beberapa contoh atau penyesuaian gaya merentasi pelbagai bahasa.
Pembelajaran Aktif & Kurasi TM: Menggunakan skor keyakinan LLM atau percanggahan dengan TM sedia ada untuk menandakan potensi ralat dalam TM manusia atau mencadangkan entri baharu untuk penyunting pasca manusia, mencipta gelung terjemahan yang memperbaiki diri.
Integrasi dengan LLM Khusus yang Lebih Kecil: Mengaplikasikan TMP-LM kepada LLM sumber terbuka yang lebih cekap (seperti Llama atau Mistral) yang diselaraskan halus khusus untuk tugas terjemahan, mengurangkan kebergantungan pada API besar, tujuan umum, dan mahal.
Penanda Aras Petunjuk Piawai: Komuniti memerlukan penanda aras seperti "Prompt-MT" untuk menilai secara sistematik strategi petunjuk yang berbeza untuk terjemahan merentasi pelbagai LLM, serupa dengan peranan WMT untuk NMT tradisional.

7. Rujukan

Mu, Y., Reheman, A., Cao, Z., et al. (2023). Augmenting Large Language Model Translators via Translation Memories. arXiv preprint arXiv:2305.17367.
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Khandelwal, U., Levy, O., Jurafsky, D., et al. (2021). Generalization through memorization: Nearest neighbor language models. International Conference on Learning Representations (ICLR).
Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models. Stanford Center for Research on Foundation Models.
Liu, N. F., Lin, K., Hewitt, J., et al. (2023). Lost in the middle: How language models use long contexts. arXiv preprint arXiv:2307.03172.
Reheman, A., Cao, Z., Li, B., et al. (2023). One-shot learning for neural machine translation with translation memories. Findings of the Association for Computational Linguistics.