İspanya'nın Düşük Kaynaklı Dilleri için Çok Dilli Transfer ve Alan Uyarlaması: HW-TSC WMT 2024 Katkısı

1. Giriş

Bu belge, Huawei Çeviri Hizmetleri Merkezi'nin (HW-TSC) WMT 2024 "İspanya'nın Düşük Kaynaklı Dillerine Çeviri" görevi için yaptığı katkıyı detaylandırmaktadır. Ekip üç spesifik çeviri yönünde katılım sağlamıştır: İspanyolca'dan Aragonca'ya (es→arg), İspanyolca'dan Aranese'ye (es→arn) ve İspanyolca'dan Asturyasça'ya (es→ast). Ele alınan temel zorluk, çeviri teknolojisini kapsayıcı hale getirmede yaygın bir engel olan, paralel eğitim verisi ciddi şekilde sınırlı diller için Sinirsel Makine Çevirisi'dir (SMT).

Önerilen çözüm, derin bir Transformer-big mimarisine uygulanan gelişmiş eğitim stratejilerinin bir kombinasyonundan yararlanır. Bu stratejiler çok dilli transfer öğrenme, düzenlileştirilmiş dropout, ileri ve geri çeviri yoluyla sentetik veri üretimi, LaBSE gürültü giderme kullanarak gürültü azaltma ve transduction ensemble öğrenme yoluyla model konsolidasyonunu içerir. Bu tekniklerin entegrasyonu, veri kıtlığına rağmen çeviri kalitesini maksimize etmeyi ve nihai değerlendirmede rekabetçi sonuçlar elde etmeyi amaçlamıştır.

2. Veri Kümesi

Eğitim, adil bir karşılaştırma sağlamak için yalnızca WMT 2024 organizatörleri tarafından sağlanan veriler üzerinde gerçekleştirilmiştir. Veriler, hem kaynak (İspanyolca) hem de hedef (düşük kaynaklı) dillerdeki iki dilli paralel derlemleri ve tek dilli verileri kapsamaktadır.

Veri İstatistikleri

Mevcut verilerin ölçeği, özellikle Aragonca için olmak üzere, "düşük kaynaklı" doğayı vurgulayacak şekilde üç dil çifti arasında büyük farklılıklar göstermektedir.

2.1 Veri Boyutu

Aşağıdaki tablo (PDF'den yeniden oluşturulmuştur) her dil çifti için mevcut verileri özetlemektedir. Tüm rakamlar milyon (M) cümle çifti veya cümle cinsindendir.

Dil Çifti	İki Dilli Veri	Kaynak (es) Tek Dilli	Hedef Tek Dilli
es → arg	0.06M	0.4M	0.26M
es → arn	2.04M	8M	6M
es → ast	13.36M	8M	3M

Temel İçgörü: İki dilli verilerdeki aşırı farklılık (Aragonca için 0.06M vs. Asturyasça için 13.36M), sağlam transfer ve veri artırma tekniklerini gerektirir. Nispeten daha büyük tek dilli derlemler, sentetik paralel veri üretimi için kritik varlıklar haline gelir.

3. SMT Sistemi Genel Bakış

Sistem, derin Transformer-big mimarisi üzerine inşa edilmiştir. Yenilik, temel modelde değil, veri sınırlamalarının üstesinden gelmek için tasarlanmış sofistike bir eğitim stratejileri ardışık düzenindedir:

Çok Dilli Ön Eğitim: Bir model, ilgili dil verilerinin (örneğin, diğer Roman dilleri) bir karışımı üzerinde önceden eğitilir. Bu, parametrelerin (kelime dağarcığı, kodlayıcı/kod çözücü katmanları) paylaşılmasına izin vererek, yüksek kaynaklı dillerden düşük kaynaklı dillere bilgi transferini mümkün kılar.
Düzenlileştirilmiş Dropout (Wu ve diğerleri, 2021): Tutarlı dropout maskelerini farklı katmanlar veya eğitim adımları boyunca uygulayarak model genellemesini iyileştiren ve küçük veri kümelerinde aşırı uyumu önleyen gelişmiş bir dropout tekniği.
Sentetik Veri Üretimi:
- İleri Çeviri: Hedef dildeki tek dilli verileri kaynak diline geri çevirerek sentetik kaynak-hedef çiftleri oluşturmak.
- Geri Çeviri: Kaynak dildeki tek dilli verileri hedef dile çevirmek, SMT veri artırımı için temel bir teknik.
LaBSE Gürültü Giderme (Feng ve diğerleri, 2020): Sentetik verilerden gürültülü veya düşük kaliteli cümle çiftlerini filtrelemek için Dil-bağımsız BERT Cümle Gömme (LaBSE) modelini kullanmak, yalnızca yüksek kaliteli örneklerin nihai eğitimi yönlendirmesini sağlamak.
Transduction Ensemble Öğrenme (Wang ve diğerleri, 2020): Çalışma zamanında ensemble yapmak yerine, birkaç ayrı ayrı eğitilmiş SMT modelinin (örneğin, farklı veri karışımları üzerinde eğitilmiş) yeteneklerini tek, daha güçlü bir modelde birleştirmenin bir yöntemi.

4. Deneysel Kurulum & Sonuçlar

Makale, yukarıda bahsedilen geliştirme stratejilerinin kullanılmasının WMT 2024 nihai değerlendirmesinde rekabetçi bir sonuca yol açtığını belirtmektedir. Alıntıda spesifik BLEU veya chrF++ skorları sağlanmamış olsa da, sonuç, düşük kaynaklı senaryolar için çok stratejili yaklaşımın etkinliğini doğrulamaktadır. Başarı muhtemelen stratejilerin tamamlayıcı doğasından kaynaklanmaktadır: transfer öğrenme güçlü bir başlatma sağlar, sentetik veri etkin veri kümesini genişletir, gürültü giderme onu temizler ve düzenlileştirme/ensemble yöntemleri nihai performansı stabilize eder ve artırır.

5. Temel Analiz & Uzman Yorumu

Temel İçgörü

Huawei'nin katkısı, teorik yenilikten ziyade pragmatik mühendisliğin ders kitabı niteliğinde bir örneğidir. WMT'nin yüksek riskli arenasında, tek bir test edilmemiş atılıma bahse girmek yerine, yerleşik ancak güçlü tekniklerden oluşan iyi orkestre edilmiş bir topçu bataryası konuşlandırmışlardır. Bu, yeni bir model icat etmekle ilgili değil; veri kıtlığı problemini katmanlı bir savunma yoluyla sistematik olarak parçalamakla ilgilidir: temel bilgi için transfer öğrenme, ölçek için sentetik veri, kalite kontrolü için gürültü giderme ve zirve performans için ensemble yöntemleri. Uygulamalı yapay zekada, sağlam ardışık düzenlerin genellikle kırılgan algoritmalardan daha iyi performans gösterdiğinin bir hatırlatıcısıdır.

Mantıksal Akış

Metodoloji, tutarlı, üretime hazır bir mantık izler. En mantıklı kaldıraç noktası olan—çok dilli transfer—ile başlar, İspanyolca bölgesel dillerinin dilsel akrabalığından yararlanır. Bu, belirli bir stil için ince ayar yapmadan önce bir modeli genel fotoğrafçılık üzerinde ön eğitime tabi tutmaya benzer; CycleGAN (Zhu ve diğerleri, 2017) gibi alan uyarlaması için paylaşılan jeneratörler kullanan modeller tarafından doğrulanmış bir ilkedir. Daha sonra, SMT ve SMT dönemlerinden kanıtlanmış bir taktik olan ileri/geri çeviri yoluyla veriyi büyük ölçüde çoğaltarak temel kıtlık sorununu ele alırlar. Kritik olarak, bu sentetik veriyi yüz değeriyle almazlar; LaBSE gürültü giderme adımı, modeli bozabilecek gürültüyü filtreleyen kritik bir kalite kapısıdır—erken geri çeviri çabalarının tuzaklarından öğrenilen bir ders. Son olarak, kazanımları ensemble öğrenme yoluyla pekiştirir ve sağlamlığı sağlarlar.

Güçlü & Zayıf Yönler

Güçlü Yönler: Yaklaşım kapsamlı ve düşük risklidir. Her bileşen, düşük kaynaklı SMT'de bilinen bir zayıflığı ele alır. Gürültü giderme için LaBSE kullanımı özellikle akıllıcadır, pratik bir veri temizleme görevi için modern bir cümle gömme modelinden yararlanır. Standart bir Transformer-big mimarisine odaklanmak, tekrarlanabilirliği ve kararlılığı sağlar.

Zayıf Yönler: Odadaki fil, Büyük Dil Modeli (LLM) entegrasyonunun tamamen yokluğudur. Makale LLM'leri bir trend olarak bahsetse de kullanmamaktadır. 2024 yılında, bu görevler için çok dilli bir LLM'i (BLOOM veya Llama gibi) ince ayar yaparak denememek önemli bir stratejik ihmaldir. LLM'ler, geniş parametrik bilgileri ve bağlam içi öğrenme yetenekleriyle, düşük kaynaklı çeviri için yeni temeller belirlemiştir (ACL tarafından yapılan araştırmalarda belirtildiği gibi, Ruder, 2023). Ayrıca, makale ablasyon çalışmalarından yoksundur. Hangi stratejinin (gürültü giderme vs. ensemble vs. transfer) kazanımlara en çok katkıda bulunduğunu bilmiyoruz, bu da onu bir kara kutu çözümü haline getiriyor.

Uygulanabilir İçgörüler

Uygulayıcılar için: Bu ardışık düzeni kopyalayın, ancak bir LLM enjekte edin. Özel bir çok dilli SMT modeli yerine veya ek olarak, transfer öğrenmenin temeli olarak çok dilli bir LLM kullanın. LLM'i verimli bir şekilde uyarlamak için LoRA gibi parametre-verimli ince ayar (PEFT) yöntemlerini keşfedin. Gürültü giderme ve ensemble adımları oldukça değerli olmaya devam etmektedir. Araştırmacılar için: Alan, düşük kaynaklı ortamlarda sentetik veri ardışık düzenleri ile LLM ince ayarının maliyet/faydası üzerine daha net kıyaslamalara ihtiyaç duymaktadır. Huawei'nin çalışması ilki için güçlü bir temel oluşturmaktadır; bir sonraki makale bunu ikincisiyle titizlikle karşılaştırmalıdır.

6. Teknik Detaylar & Matematiksel Formülasyon

PDF alıntısı açık formüller sağlamasa da, temel teknikler resmi olarak tanımlanabilir:

Düzenlileştirilmiş Dropout (Kavramsal): Bağımsız olarak rastgele maskeler uygulayan standart dropout'un aksine, düzenlileştirilmiş dropout tutarlılığı zorunlu kılar. Bir katmanın çıktısı $h$ için, her seferinde değişen $m \sim \text{Bernoulli}(p)$ olduğu $h_{drop} = h \odot m$ yerine, bir varyant belirli bir girdi dizisi için birden fazla katman veya eğitim adımı boyunca aynı maskeyi $m$ kullanabilir, böylece modelin daha sağlam özellikler öğrenmesini zorlar. Eğitim sırasındaki kayıp fonksiyonu bu tutarlılığı bir düzenlileştirici olarak içerir.

Geri Çeviri Hedefi: Hedef dildeki tek dilli bir cümle $y$ verildiğinde, bir geri model $\theta_{y\rightarrow x}$ sentetik bir kaynak cümle $\hat{x}$ üretir. Sentetik çift $(\hat{x}, y)$ daha sonra ileri model $\theta_{x\rightarrow y}$'yi negatif log-olabilirliği en aza indirerek eğitmek için kullanılır: $\mathcal{L}_{BT} = -\sum \log P(y | \hat{x}; \theta_{x\rightarrow y})$.

LaBSE Gürültü Giderme Filtresi: Sentetik bir çift $(\hat{x}, y)$ için, LaBSE gömme vektörleri $e_{\hat{x}}, e_{y}$ hesaplanır. Çift, yalnızca kosinüs benzerlikleri bir eşik değeri $\tau$'yu aşarsa saklanır: $\frac{e_{\hat{x}} \cdot e_{y}}{\|e_{\hat{x}}\|\|e_{y}\|} > \tau$. Bu, anlamsal hizalamanın zayıf olduğu çiftleri filtreler.

7. Sonuçlar & Grafik Açıklaması

Sağlanan PDF içeriği spesifik sonuç tabloları veya grafikleri içermemektedir. Açıklamaya dayanarak, varsayımsal bir sonuç grafiği muhtemelen şunları gösterecektir:

Grafik Türü: Gruplandırılmış çubuk grafik.
X-ekseni: Üç dil çifti: es→arg, es→arn, es→ast.
Y-ekseni: Otomatik değerlendirme metrik skorları (örn., BLEU, chrF++).
Çubuklar: Dil çifti başına karşılaştırmalı birden fazla çubuk: 1) Bir Temel (yalnızca iki dilli veri üzerinde Transformer-big), 2) +Çok Dilli Transfer, 3) +Sentetik Veri (BT/FT), 4) +Gürültü Giderme & Ensemble (Tam HW-TSC sistemi).
Beklenen Eğilim: Temelden tam sisteme doğru önemli bir skor artışı, en dramatik göreceli iyileşmenin en düşük kaynaklı dil olan es→arg için beklenmesi, tekniklerin aşırı veri kıtlığındaki etkinliğini göstermektedir.

Makalenin sistemin "rekabetçi sonuçlar" elde ettiği sonucu, HW-TSC için nihai çubukların WMT 2024 değerlendirmesinde her görev için liderlik tablosunun en üstünde veya yakınında olacağını ima etmektedir.

8. Analiz Çerçevesi: Bir Vaka Çalışması

Senaryo: Bir teknoloji şirketi, yalnızca 10.000 paralel cümleye sahip ancak ilgili yüksek kaynaklı bir dil "LangH"'de 1 milyon tek dilli cümleye sahip yeni bir düşük kaynaklı lehçe "LangX" için bir çeviri sistemi oluşturmak istiyor.

Çerçeve Uygulaması (HW-TSC'den ilham alınarak):

Aşama 1 - Temel (Transfer): LangH ve aynı ailedeki diğer diller için halka açık veriler üzerinde çok dilli bir model ön eğitin. LangH→LangX modelini bu ağırlıklarla başlatın.
Aşama 2 - Ölçek (Sentez):
- 1M LangH tek dilli cümlesi üzerinde geri çeviri yapmak için başlangıç modelini kullanın, sentetik (LangH, sentetik_LangX) çiftleri oluşturun.
- 10K gerçek çift üzerinde ters (LangX→LangH) bir model eğitin, ardından LangX tek dilli verileri (mevcutsa) üzerinde ileri çeviri yapmak için kullanın, sentetik (sentetik_LangH, LangX) çiftleri oluşturun.
Aşama 3 - İnceltme (Gürültü Giderme): Tüm gerçek ve sentetik çiftleri birleştirin. Her sentetik çift için benzerlik skorları hesaplamak üzere bir cümle gömme modeli (örn., LaBSE) kullanın. Kalibre edilmiş bir benzerlik eşiğinin (örn., 0.8) altındaki tüm çiftleri filtreleyin.
Aşama 4 - Optimizasyon (Eğitim & Ensemble): Temizlenmiş, artırılmış veri kümesi üzerinde düzenlileştirilmiş dropout ile birden fazla nihai model eğitin. Onları tek bir üretim modelinde birleştirmek için transduction ensemble öğrenmeyi kullanın.

Bu yapılandırılmış, aşamalı yaklaşım, projeyi riskten arındırır ve Huawei'nin çalışmasında belirgin olan endüstriyel Ar-Ge sürecini yansıtan net kilometre taşları sağlar.

9. Gelecek Uygulamalar & Yönelimler

Gösterilen teknikler, İspanya'nın spesifik dillerinin ötesinde geniş bir uygulanabilirliğe sahiptir:

Dijital Koruma: Yüzlerce tehlike altındaki küresel dil için minimum paralel veri ile çeviri ve içerik oluşturmayı mümkün kılmak.
Kurumsal Alan Uyarlaması: Genel MT modellerini, alan içi paralel verinin kıt olduğu ancak tek dilli kılavuzlar/eski belgelerin bulunduğu oldukça özelleşmiş jargonlara (örn., hukuki, tıbbi) hızla uyarlamak.
Çok Modlu Düşük Kaynaklı Öğrenme: Ardışık düzenin ilkeleri—transfer, sentetik veri, gürültü giderme—düşük kaynaklı görsel altyazılandırma veya konuşma çevirisi görevleri için uyarlanabilir.

Gelecek Araştırma Yönelimleri:

LLM Entegrasyonu: En acil yönelim, bu ardışık düzeni yalnızca kod çözücülü LLM'lerle entegre etmektir. Gelecek çalışmalar, ince ayarın (örn., Mistral, Llama) bu özelleştirilmiş SMT yaklaşımına göre kalite, maliyet ve gecikme açısından karşılaştırmasını yapmalıdır.
Dinamik Veri Zamanlaması: Statik filtreleme yerine, eğitim sırasında gerçek vs. sentetik, temiz vs. gürültülü verinin tanıtımını akıllıca planlayan müfredat öğrenme stratejileri geliştirin.
Açıklanabilir Gürültü Giderme: Kosinüs benzerliği eşiklerinin ötesine geçerek, sentetik veri kalitesi için daha yorumlanabilir metrikler kullanın, potansiyel olarak model güveni veya belirsizlik tahminlerini kullanarak.
Sıfır Atış Transferi: Bu İspanyolca dilleri paketi üzerinde eğitilmiş modellerin, görülmemiş ancak ilgili Roman dilleri üzerinde nasıl performans gösterdiğini keşfetmek, gerçek sıfır atış yeteneğine doğru ilerlemek.

10. Referanslar

Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
Feng, F., Yang, Y., Cer, D., Ariwazhagan, N., & Wang, W. (2020). Language-agnostic BERT sentence embedding. arXiv preprint arXiv:2007.01852.
Koehn, P., et al. (2007). Moses: Open source toolkit for statistical machine translation. ACL.
Li, Z., et al. (2022). Pre-training multilingual neural machine translation by leveraging alignment information. Findings of EMNLP.
Ruder, S. (2023). Recent Advances in Natural Language Processing. ACL Rolling Review Survey Track.
Wang, Y., et al. (2020). Transduction ensemble learning for neural machine translation. AAAI.
Wu, Z., et al. (2021). Regularized dropout for neural machine translation. ACL-IJCNLP.
Wu, Z., et al. (2023). Synthetic data for neural machine translation: A survey. Computational Linguistics.
Zhu, J.Y., Park, T., Isola, P., & Efros, A.A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. ICCV.