Çeviri Bellekleri ile Büyük Dil Modeli Çevirmenlerinin Güçlendirilmesi

1. Giriş

Bu makale, Büyük Dil Modellerinin (LLM'ler) ortaya çıkan bağlam içi öğrenme yeteneklerinden yararlanarak makine çevirisini (MT) geliştirmeye yönelik yeni bir yaklaşımı araştırmaktadır. Temel varsayım, önceki insan çevirilerinden oluşan veritabanları olan Çeviri Belleklerinin (TM'ler), mimari değişiklikler veya ince ayar gerektirmeden LLM'leri daha doğru ve alana uygun çeviriler üretmeye yönlendirmek için oldukça etkili az örnekli ipuçları olarak hizmet edebileceğidir.

Bu çalışma, ya Sinirsel Makine Çevirisi (NMT) model mimarilerini değiştirmeyi ya da ayrı çeviri bilgi tabanları oluşturmayı gerektiren önceki yöntemlere karşı konumlanmaktadır. Buna karşılık, önerilen yöntem olan Büyük Dil Modelleri için Çeviri Belleği İpucu Verme (TMP-LM), LLM'nin bağlam penceresinde sunulan talimatları anlama ve takip etme konusundaki doğal yeteneğinden yararlanan hafif, yalnızca ipucu vermeye dayalı bir tekniktir.

2. Metodoloji: LLM'ler için Çeviri Belleği İpucu Verme (TMP-LM)

TMP-LM, çeviri bilgisini bir LLM'ye, çeviri sorgusunun başına ilgili TM örnekleri ekleyerek enjekte eden basit ama güçlü bir çerçevedir. Süreç şunları içerir: 1) Verilen bir girdi cümlesi için bir TM'den benzer kaynak cümleleri ve bunların çevirilerini getirme. 2) Bu (kaynak, hedef) çiftlerini belirli bir şablona uygun olarak tutarlı bir ipucuna dönüştürme. 3) Bu ipucunu, ardından yeni kaynak cümleyi, LLM'ye çeviri için sunma.

2.1. İpucu Şablonu Tasarımı

Makale, çeviri görevini ve örnekleri LLM'ye etkili bir şekilde iletmek için farklı ipucu stillerini araştırmaktadır. İki temel şablon öne çıkarılmaktadır:

Talimat Şablonu (INSTRUCTION): Doğal dil talimatları kullanır. Örneğin: "Eğer 'X1'in İngilizceden Fransızcaya çevirisi 'Y1' ise ve 'X2'nin çevirisi 'Y2' ise, o zaman 'X_new'in çevirisi nedir? Yalnızca çeviri sonuçları gereklidir."
Yapılandırılmış Şablon (CODE): Daha resmi, anahtar-değer çifti yapısı kullanır. Örneğin: "[src-lang]=[X1] [tgt-lang]=[Y1] [src-lang]=[X2] [tgt-lang]=[Y2] [src-lang]=[X_new] [tgt-lang]="

Şablon seçimi, belirsizliği azaltarak genellikle daha tutarlı çıktılar sağlayan yapılandırılmış şablonlarla birlikte, LLM'nin performansını önemli ölçüde etkiler.

2.2. TMP-LM Çerçevesi

Temel mekanizma soyutlanabilir. Bir girdi cümlesi $x$ verildiğinde, bir TM getirme fonksiyonu $R(x)$, $k$ en benzer kaynak-hedef çiftini $(x_i^{tm}, y_i^{tm})$ bulur. Bir ipucu oluşturma fonksiyonu $C(\{(x_i^{tm}, y_i^{tm})\}_{i=1}^k, x)$ bunları son bir ipucu $P$'ye dönüştürür. $M$ olarak gösterilen LLM daha sonra çeviriyi üretir: $\hat{y} = M(P)$.

Etkililik, LLM'nin bağlam içi analojik akıl yürütme—sağlanan örneklerdeki kalıbı tanımlama ve bunu yeni sorguya uygulama—yapabilme yeteneğine bağlıdır.

3. Deneysel Kurulum ve Sonuçlar

3.1. Veri Kümeleri ve Karşılaştırma Modelleri

Deneyler, birden fazla dil (örneğin, İngilizce-Almanca, İngilizce-Çince) ve alan (Hukuk, BT, Tıp) üzerinde çeviri görevleri için gerçekleştirilmiştir. Kullanılan birincil LLM, OpenAI'ın text-davinci-003 modeliydi. Karşılaştırma modelleri arasında, büyük iki dilli derlemeler üzerinde eğitilmiş güçlü, iyi ayarlanmış alana özgü NMT sistemleri yer almaktaydı.

Deneysel Öne Çıkanlar

Model: GPT-3.5 (text-davinci-003)
Değerlendirme Metriği: BLEU Skoru
Temel Karşılaştırma: TMP-LM vs. En İyi Alan-Ayarlı NMT

3.2. Temel Sonuçlar ve Analiz

Sonuçlar çarpıcıydı:

Büyük BLEU Kazanımları: Yüksek kaliteli TM ipuçları kullanmak, LLM'nin sıfır atışlı çeviri performansını çeşitli görevlerde 20 ila 30 BLEU puanı kadar iyileştirdi. Bu, bir LLM'yi vasat bir çevirmenden oldukça yetkin bir çevirmene dönüştürür.
En İyi NMT ile Rekabet Edebilirlik: İpucu verilen LLM'nin performansı, büyük ölçekli alan içi veriler üzerinde özel olarak eğitilmiş en iyi NMT sistemlerinin performansıyla karşılaştırılabilir ve bazen onu aştı. Bu önemli bir bulgudur, çünkü uygun ipucu verilen LLM'lerin, göreve özel eğitim olmadan özelleştirilmiş modellerin performansına denk gelebileceğini göstermektedir.
Şablon Hassasiyeti: Yapılandırılmış (CODE) şablon, genellikle doğal dil (INSTRUCTION) şablonundan daha güvenilir ve daha yüksek kaliteli çeviriler sağladı; bu da kesin ipucu mühendisliğinin önemini vurgulamaktadır.

Grafik Açıklaması (Örtük): Bir çubuk grafik, her dil çifti/alan için üç grup gösterecektir: 1) LLM Sıfır Atışlı (düşük BLEU), 2) LLM + TMP-LM (çok yüksek BLEU), 3) En İyi NMT Karşılaştırması (yüksek BLEU, grup 2'ye benzer). Grup 2 ve 3 için çubuklar birbirine yakın eşleşecek ve her ikisi de grup 1'in çok üzerinde olacaktır.

4. Teknik Analiz ve Temel İçgörüler

Temel İçgörü: Makalenin çığır açıcı keşfi, bir LLM'nin çeviri kapasitesinin sabit olmadığı, bağlamının bir fonksiyonu olduğudur. Ham model zayıf bir çevirmendir, ancak bağlamı ilgili, yüksek doğruluklu çeviri örnekleri (TM'ler) ile beslediğinde, özel olarak geliştirilmiş NMT sistemleriyle rekabet edebilecek performansı ortaya çıkarır. Bu, LLM'leri temelden statik modellerden dinamik, bağlam-programlanabilir çeviri motorlarına dönüştürür. Stanford Temel Modeller Araştırma Merkezi'ndeki araştırmacıların vurguladığı, bir modelin "bilgisinin" ve "yeteneklerinin" giderek statik ağırlıklardan ziyade ipucu tabanlı aktivasyonla tanımlandığı daha geniş paradigma değişimiyle uyumludur.

Mantıksal Akış: Argüman zarif ve ikna edicidir. 1) LLM'ler güçlü bağlam içi öğrenme ve talimat takip etme yeteneklerine sahiptir (Ouyang ve diğerlerinin "Training language models to follow instructions with human feedback" gibi çalışmalarda gösterildiği gibi). 2) Çeviri, örneklerle tanımlanabilen iyi tanımlanmış bir görevdir. 3) TM'ler titizlikle seçilmiş, yüksek kaliteli örnek çiftleridir. 4) Bu nedenle, TM'leri bağlam içi örnekler olarak sunmak, çeviri kalitesini önemli ölçüde artırmalıdır ve artırmaktadır. Mantık sağlamdır ve deneysel kanıt güçlüdür.

Güçlü ve Zayıf Yönler: Güçlü yönü inkâr edilemez: basit, müdahaleci olmayan bir yöntem büyük kazanımlar sağlar. Mevcut TM varlıklarını ve hazır LLM'leri kullanarak yüksek kaliteli MT'yi demokratikleştirir. Ancak, zayıf yönleri bağımlılıklardadır. İlk olarak, getirilen TM eşleşmelerinin kalitesine ve ilgisine kritik derecede bağımlıdır—çöp girişi, çöp çıkışı. İkinci olarak, tüm LLM sınırlamalarını miras alır: maliyet, gecikme ve bağlam penceresi kısıtlamaları (Liu ve diğerlerinin tanımladığı "Lost-in-the-middle" sorunu gibi). Üçüncü olarak, makalenin ima ettiği gibi, yöntem kırılgandır; yanlış ipucu şablonu performansı düşürebilir. Bu aşamada mühendislikten ziyade simya gibidir.

Uygulanabilir İçgörüler: Uygulayıcılar için bu, LLM'leri kutudan çıkar çevirmenler olarak görmeyi bırakıp onları ipucu optimize edilebilir sistemler olarak görmeye başlama çağrısıdır. Yatırım, model eğitiminden, TM'ler için sağlam getirme sistemleri oluşturmaya ve farklı alanlar için standartlaştırılmış, optimize edilmiş ipucu şablonları geliştirmeye (topluluğun BERT ince ayarını standartlaştırdığı gibi) kaymalıdır. Araştırmacılar için bir sonraki sınır, bu süreci daha sağlam ve verimli hale getirmektir—TM bilgisini daha verimli ipuçlarına nasıl sıkıştıracağını veya bağlam uzunluğunu ve maliyeti azaltmak için ipucu vermeyi hafif ince ayarla nasıl birleştireceğini keşfetmek.

5. Analiz Çerçevesi: Kod İçermeyen Bir Örnek

Geniş bir sözleşme maddeleri TM'sine sahip bir hukuk çeviri firmasını düşünün. Daha önce, bir NMT sisteminin iyileştirilmesi için yeni hukuk verileri üzerinde yeniden eğitilmesi gerekirdi. TMP-LM ile:

Girdi: Yeni kaynak cümle: "The indemnity clause shall survive termination of this Agreement." (Tazminat maddesi bu Sözleşmenin feshinden sonra da geçerliliğini koruyacaktır.)
Getirme: Sistem hukuk TM'sini arar ve iki benzer, daha önce çevrilmiş madde bulur:
- TM1: Kaynak: "This confidentiality obligation shall survive the expiration of the contract." → Hedef: "La obligación de confidencialidad sobrevivirá a la expiración del contrato." (Gizlilik yükümlülüğü sözleşmenin sona ermesinden sonra da geçerliliğini koruyacaktır.)
- TM2: Kaynak: "The warranty shall survive delivery and inspection." → Hedef: "La garantía sobrevivirá a la entrega y la inspección." (Garanti teslim ve incelemeden sonra da geçerliliğini koruyacaktır.)

İpucu Oluşturma (CODE stili): Sistem LLM için şu ipucunu oluşturur:

[src-lang]=[This confidentiality obligation shall survive the expiration of the contract.] [tgt-lang]=[La obligación de confidencialidad sobrevivirá a la expiración del contrato.]
[src-lang]=[The warranty shall survive delivery and inspection.] [tgt-lang]=[La garantía sobrevivirá a la entrega y la inspección.]
[src-lang]=[The indemnity clause shall survive termination of this Agreement.] [tgt-lang]=

Çıktı: LLM, kalıbı tanıyarak ("X shall survive Y" → "X sobrevivirá a Y"), biçemsel olarak tutarlı ve hukuken doğru bir çeviri üretir: "La cláusula de indemnización sobrevivirá a la terminación de este Acuerdo." (Tazminat maddesi bu Sözleşmenin feshinden sonra da geçerliliğini koruyacaktır.)

Bu çerçeve, LLM'yi firmanın yerleşik terminolojisine ve stiline bağlı kalan bağlam duyarlı bir çeviri asistanına dönüştürür.

6. Gelecekteki Uygulamalar ve Araştırma Yönleri

Dinamik Hibrit Sistemler: Gelecekteki MT sistemleri, genel metinler için ince ayarlı NMT ile zengin TM'lere sahip alanlar (hukuk, tıp, teknik) için TMP-LM arasında sorunsuz bir şekilde geçiş yaparak kalite ve maliyet için optimize olabilir.
İki Dilli TM'lerin Ötesi: Kavramı çok dilli çeviri belleklerine genişleterek, az örnekli pivot çevirisi veya birden fazla dilde stil uyarlaması sağlamak.
Aktif Öğrenme ve TM Kürasyonu: LLM güven puanlarını veya mevcut TM'lerle anlaşmazlığı, insan TM'lerindeki potansiyel hataları işaretlemek veya insan son düzenleyicileri için yeni girdiler önermek için kullanarak, kendini geliştiren bir çeviri döngüsü oluşturmak.
Daha Küçük, Özelleştirilmiş LLM'lerle Entegrasyon: TMP-LM'yi, çeviri görevleri için özel olarak ince ayarlanmış daha verimli, açık kaynaklı LLM'lere (Llama veya Mistral gibi) uygulayarak, büyük, genel amaçlı ve pahalı API'lere olan bağımlılığı azaltmak.
Standartlaştırılmış İpucu Verme Kıyaslamaları: Topluluğun, geleneksel NMT için WMT'nin rolüne benzer şekilde, farklı LLM'ler arasında çeviri için farklı ipucu verme stratejilerini sistematik olarak değerlendirmek için "Prompt-MT" gibi kıyaslamalara ihtiyacı vardır.

7. Kaynaklar

Mu, Y., Reheman, A., Cao, Z., ve diğerleri. (2023). Augmenting Large Language Model Translators via Translation Memories. arXiv preprint arXiv:2305.17367.
Ouyang, L., Wu, J., Jiang, X., ve diğerleri. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Khandelwal, U., Levy, O., Jurafsky, D., ve diğerleri. (2021). Generalization through memorization: Nearest neighbor language models. International Conference on Learning Representations (ICLR).
Bommasani, R., Hudson, D. A., Adeli, E., ve diğerleri. (2021). On the opportunities and risks of foundation models. Stanford Center for Research on Foundation Models.
Liu, N. F., Lin, K., Hewitt, J., ve diğerleri. (2023). Lost in the middle: How language models use long contexts. arXiv preprint arXiv:2307.03172.
Reheman, A., Cao, Z., Li, B., ve diğerleri. (2023). One-shot learning for neural machine translation with translation memories. Findings of the Association for Computational Linguistics.