Pemindahan Pelbagai Bahasa dan Penyesuaian Domain untuk Bahasa Sumber Rendah di Sepanyol: Penyerahan HW-TSC WMT 2024

1. Pengenalan

Dokumen ini memperincikan penyerahan oleh Pusat Perkhidmatan Terjemahan Huawei (HW-TSC) untuk tugasan WMT 2024 "Terjemahan ke dalam Bahasa Sumber Rendah di Sepanyol". Pasukan menyertai tiga arah terjemahan khusus: Sepanyol ke Aragonese (es→arg), Sepanyol ke Aranese (es→arn), dan Sepanyol ke Asturian (es→ast). Cabaran teras yang ditangani ialah Terjemahan Mesin Neural (NMT) untuk bahasa yang mempunyai data latihan selari yang sangat terhad, satu halangan biasa dalam menjadikan teknologi terjemahan inklusif.

Penyelesaian yang dicadangkan memanfaatkan gabungan strategi latihan maju yang diaplikasikan pada seni bina Transformer-big yang mendalam. Strategi ini termasuk pembelajaran pemindahan pelbagai bahasa, regularized dropout, penjanaan data sintetik melalui terjemahan hadapan dan belakang, pengurangan hingar menggunakan penyahhingaran LaBSE, dan penyatuan model melalui pembelajaran ensembel transduksi. Integrasi teknik-teknik ini bertujuan untuk memaksimumkan kualiti terjemahan walaupun kekurangan data, mencapai keputusan yang kompetitif dalam penilaian akhir.

2. Set Data

Latihan dijalankan secara eksklusif pada data yang disediakan oleh penganjur WMT 2024, memastikan perbandingan yang adil. Data merangkumi korpus selari dwibahasa dan data satu bahasa dalam kedua-dua bahasa sumber (Sepanyol) dan sasaran (bahasa sumber rendah).

Statistik Data

Skala data yang tersedia berbeza secara drastik merentasi tiga pasangan bahasa, menonjolkan sifat "sumber rendah", terutamanya untuk Aragonese.

2.1 Saiz Data

Jadual berikut (dibina semula daripada PDF) merumuskan data yang tersedia untuk setiap pasangan bahasa. Semua angka adalah dalam juta (M) pasangan ayat atau ayat.

Pasangan Bahasa	Data Dwibahasa	Sumber (es) Satu Bahasa	Sasaran Satu Bahasa
es → arg	0.06M	0.4M	0.26M
es → arn	2.04M	8M	6M
es → ast	13.36M	8M	3M

Pandangan Utama: Perbezaan ekstrem dalam data dwibahasa (0.06M untuk Aragonese berbanding 13.36M untuk Asturian) memerlukan teknik pemindahan dan augmentasi data yang teguh. Korpus satu bahasa yang agak lebih besar menjadi aset kritikal untuk menjana data selari sintetik.

3. Gambaran Keseluruhan Sistem NMT

Sistem ini dibina berdasarkan seni bina Transformer-big yang mendalam. Inovasi terletak bukan pada model asas, tetapi pada saluran strategi latihan yang canggih yang direka untuk mengatasi batasan data:

Pra-latihan Pelbagai Bahasa: Model dilatih awal pada campuran data bahasa berkaitan (contohnya, bahasa Roman lain). Ini membolehkan parameter (perbendaharaan kata, lapisan penyandi/penyahkod) dikongsi, membolehkan pemindahan pengetahuan dari bahasa sumber tinggi ke bahasa sumber rendah.
Regularized Dropout (Wu et al., 2021): Teknik dropout maju yang meningkatkan generalisasi model dan mencegah overfitting pada set data kecil dengan menggunakan topeng dropout yang konsisten merentasi lapisan atau langkah latihan yang berbeza.
Penjanaan Data Sintetik:
- Terjemahan Hadapan: Menterjemah data satu bahasa sasaran kembali ke bahasa sumber untuk mencipta pasangan sumber-sasaran sintetik.
- Terjemahan Belakang: Menterjemah data satu bahasa sumber ke bahasa sasaran, teknik asas untuk augmentasi data NMT.
Penyahhingaran LaBSE (Feng et al., 2020): Menggunakan model Penanaman Ayat BERT Agnostik-Bahasa (LaBSE) untuk menapis pasangan ayat yang hingar atau berkualiti rendah daripada data sintetik, memastikan hanya contoh berkualiti tinggi membimbing latihan akhir.
Pembelajaran Ensembel Transduksi (Wang et al., 2020): Kaedah untuk menggabungkan keupayaan beberapa model NMT yang dilatih secara individu (contohnya, dilatih pada campuran data berbeza) menjadi satu model yang lebih berkuasa, dan bukannya melakukan ensembel masa jalan.

4. Persediaan Eksperimen & Keputusan

Kertas kerja menyatakan bahawa penggunaan strategi peningkatan yang disebutkan di atas membawa kepada keputusan yang kompetitif dalam penilaian akhir WMT 2024. Walaupun skor BLEU atau chrF++ khusus tidak disediakan dalam petikan, hasilnya mengesahkan keberkesanan pendekatan pelbagai strategi untuk senario sumber rendah. Kejayaan ini berkemungkinan berasal daripada sifat pelengkap strategi: pembelajaran pemindahan menyediakan pengawalan yang kuat, data sintetik mengembangkan set data berkesan, penyahhingaran membersihkannya, dan kaedah regularisasi/ensembel menstabilkan dan meningkatkan prestasi akhir.

5. Analisis Teras & Tafsiran Pakar

Pandangan Teras

Penyerahan Huawei adalah contoh teladan kejuruteraan pragmatik mengatasi kebaharuan teori. Dalam arena WMT yang berisiko tinggi, mereka telah mengerahkan artileri teknik yang mantap, namun berkuasa, yang diselaraskan dengan baik, dan bukannya bertaruh pada satu kejayaan baharu yang belum diuji. Ini bukan tentang mencipta model baharu; ia tentang membongkar masalah kekurangan data secara sistematik melalui pertahanan berlapis: pembelajaran pemindahan untuk pengetahuan asas, data sintetik untuk skala, penyahhingaran untuk kawalan kualiti, dan kaedah ensembel untuk prestasi puncak. Ini adalah peringatan bahawa dalam AI terapan, saluran yang teguh selalunya mengatasi algoritma yang rapuh.

Aliran Logik

Metodologi mengikuti logik yang koheren dan sedia untuk pengeluaran. Ia bermula dengan titik tuas paling logik—pemindahan pelbagai bahasa—memanfaatkan pertalian linguistik bahasa serantau Sepanyol. Ini sama seperti melatih awal model pada fotografi umum sebelum penalaan halus untuk gaya tertentu, prinsip yang disahkan oleh model seperti CycleGAN (Zhu et al., 2017) yang menggunakan penjana kongsi untuk penyesuaian domain. Mereka kemudian menangani isu kekurangan teras dengan memperkuat data secara besar-besaran melalui terjemahan hadapan/belakang, taktik terbukti dari era SMT dan NMT. Yang penting, mereka tidak mengambil data sintetik ini pada nilai muka; langkah penyahhingaran LaBSE adalah pintu kualiti kritikal, menapis hingar yang boleh merosakkan model—pengajaran yang dipelajari daripada perangkap usaha terjemahan belakang awal. Akhirnya, mereka menyatukan keuntungan melalui pembelajaran ensembel, memastikan keteguhan.

Kekuatan & Kelemahan

Kekuatan: Pendekatan ini komprehensif dan berisiko rendah. Setiap komponen menangani kelemahan yang diketahui dalam NMT sumber rendah. Penggunaan LaBSE untuk penyahhingaran amat bijak, memanfaatkan model penanaman ayat moden untuk tugas pembersihan data praktikal. Fokus pada seni bina Transformer-big standard memastikan kebolehhasilan dan kestabilan.

Kelemahan: Gajah dalam bilik ialah ketiadaan sepenuhnya integrasi Model Bahasa Besar (LLM). Kertas kerja menyebut LLM sebagai trend tetapi tidak menggunakannya. Pada 2024, tidak bereksperimen dengan penalaan halus LLM pelbagai bahasa (seperti BLOOM atau Llama) untuk tugas ini adalah pengabaian strategik yang ketara. LLM, dengan pengetahuan parametrik yang luas dan keupayaan pembelajaran dalam konteks, telah menetapkan garis dasar baharu untuk terjemahan sumber rendah, seperti yang dinyatakan dalam tinjauan oleh ACL (Ruder, 2023). Tambahan pula, kertas kerja kekurangan kajian ablasi. Kami tidak tahu strategi mana (penyahhingaran vs. ensembel vs. pemindahan) menyumbang paling banyak kepada keuntungan, menjadikannya penyelesaian kotak hitam.

Pandangan Boleh Tindak

Untuk pengamal: Salin saluran ini, tetapi suntik LLM. Gunakan LLM pelbagai bahasa sebagai asas untuk pembelajaran pemindahan menggantikan, atau tambahan kepada, model NMT pelbagai bahasa tersuai. Terokai kaedah penalaan halus cekap parameter (PEFT) seperti LoRA untuk menyesuaikan LLM dengan cekap. Langkah penyahhingaran dan ensembel kekal sangat berharga. Untuk penyelidik: Bidang ini memerlukan penanda aras yang lebih jelas tentang kos/faedah saluran data sintetik vs. penalaan halus LLM dalam persekitaran sumber rendah. Kerja Huawei adalah garis dasar yang kuat untuk yang pertama; kertas kerja seterusnya harus membandingkannya dengan yang kedua secara teliti.

6. Butiran Teknikal & Formulasi Matematik

Walaupun petikan PDF tidak menyediakan formula eksplisit, teknik teras boleh diterangkan secara formal:

Regularized Dropout (Konseptual): Tidak seperti dropout standard yang menggunakan topeng rawak secara bebas, regularized dropout menguatkuasakan konsistensi. Untuk output lapisan $h$, dan bukannya $h_{drop} = h \odot m$ di mana $m \sim \text{Bernoulli}(p)$ berubah setiap kali, varian mungkin menggunakan topeng $m$ yang sama untuk urutan input tertentu merentasi pelbagai lapisan atau langkah latihan, memaksa model untuk mempelajari ciri yang lebih teguh. Fungsi kerugian semasa latihan menggabungkan konsistensi ini sebagai regularizer.

Objektif Terjemahan Belakang: Diberi ayat satu bahasa dalam bahasa sasaran $y$, model belakang $\theta_{y\rightarrow x}$ menjana ayat sumber sintetik $\hat{x}$. Pasangan sintetik $(\hat{x}, y)$ kemudian digunakan untuk melatih model hadapan $\theta_{x\rightarrow y}$ dengan meminimumkan log-kebarangkalian negatif: $\mathcal{L}_{BT} = -\sum \log P(y | \hat{x}; \theta_{x\rightarrow y})$.

Penapis Penyahhingaran LaBSE: Untuk pasangan sintetik $(\hat{x}, y)$, penanaman LaBSE mereka $e_{\hat{x}}, e_{y}$ dikira. Pasangan dikekalkan hanya jika persamaan kosinus mereka melebihi ambang $\tau$: $\frac{e_{\hat{x}} \cdot e_{y}}{\|e_{\hat{x}}\|\|e_{y}\|} > \tau$. Ini menapis pasangan di mana penjajaran semantik lemah.

7. Keputusan & Penerangan Carta

Kandungan PDF yang disediakan tidak termasuk jadual atau carta keputusan khusus. Berdasarkan penerangan, carta keputusan hipotesis berkemungkinan menunjukkan:

Jenis Carta: Carta bar berkumpulan.
Paksi-X: Tiga pasangan bahasa: es→arg, es→arn, es→ast.
Paksi-Y: Skor metrik penilaian automatik (contohnya, BLEU, chrF++).
Bar: Pelbagai bar setiap pasangan bahasa membandingkan: 1) Garis Dasar (Transformer-big pada data dwibahasa sahaja), 2) +Pemindahan Pelbagai Bahasa, 3) +Data Sintetik (BT/FT), 4) +Penyahhingaran & Ensembel (Sistem HW-TSC penuh).
Trend Dijangka: Peningkatan skor yang ketara dari garis dasar ke sistem penuh, dengan peningkatan relatif paling dramatik dijangka untuk bahasa sumber paling rendah, es→arg, menunjukkan keberkesanan teknik dalam kekurangan data ekstrem.

Kesimpulan kertas kerja bahawa sistem mencapai "keputusan kompetitif" membayangkan bahawa bar akhir untuk HW-TSC akan berada di atau hampir dengan puncak carta kedudukan untuk setiap tugasan dalam penilaian WMT 2024.

8. Kerangka Analisis: Kajian Kes

Senario: Sebuah syarikat teknologi ingin membina sistem terjemahan untuk dialek sumber rendah baharu, "LangX", dengan hanya 10,000 ayat selari tetapi 1 juta ayat satu bahasa dalam bahasa sumber tinggi berkaitan "LangH".

Aplikasi Kerangka (Diilhamkan oleh HW-TSC):

Fasa 1 - Asas (Pemindahan): Latih awal model pelbagai bahasa pada data tersedia awam untuk LangH dan bahasa lain dalam keluarga yang sama. Mulakan model LangH→LangX dengan pemberat ini.
Fasa 2 - Skala (Sintesis):
- Gunakan model awal untuk melakukan terjemahan belakang pada 1M ayat satu bahasa LangH, mencipta pasangan sintetik (LangH, synthetic_LangX).
- Latih model songsang (LangX→LangH) pada 10K pasangan sebenar, kemudian gunakannya untuk terjemahan hadapan pada data satu bahasa LangX (jika ada), mencipta pasangan sintetik (synthetic_LangH, LangX).
Fasa 3 - Penapisan (Penyahhingaran): Gabungkan semua pasangan sebenar dan sintetik. Gunakan model penanaman ayat (contohnya, LaBSE) untuk mengira skor persamaan untuk setiap pasangan sintetik. Tapis semua pasangan di bawah ambang persamaan yang ditentukur (contohnya, 0.8).
Fasa 4 - Pengoptimuman (Latihan & Ensembel): Latih pelbagai model akhir pada set data yang dibersihkan dan diperkuat dengan regularized dropout. Gunakan pembelajaran ensembel transduksi untuk menggabungkannya menjadi satu model pengeluaran.

Pendekatan berstruktur, berpintu fasa ini mengurangkan risiko projek dan menyediakan pencapaian yang jelas, mencerminkan proses R&D perindustrian yang jelas dalam kerja Huawei.

9. Aplikasi & Hala Tuju Masa Depan

Teknik yang ditunjukkan mempunyai kebolehgunaan luas di luar bahasa khusus Sepanyol:

Pemeliharaan Digital: Membolehkan terjemahan dan penciptaan kandungan untuk ratusan bahasa global terancam dengan data selari minimum.
Penyesuaian Domain Perusahaan: Menyesuaikan model MT umum dengan cepat kepada jargon khusus tinggi (contohnya, undang-undang, perubatan) di mana data selari dalam domain adalah jarang tetapi manual/dokumen warisan satu bahasa wujud.
Pembelajaran Sumber Rendah Multimodal: Prinsip saluran—pemindahan, data sintetik, penyahhingaran—boleh disesuaikan untuk tugas kapsyen imej atau terjemahan pertuturan sumber rendah.

Hala Tuju Penyelidikan Masa Depan:

Integrasi LLM: Hala tuju paling mendesak adalah untuk mengintegrasikan saluran ini dengan LLM penyahkod-sahaja. Kerja masa depan harus membandingkan penalaan halus (contohnya, Mistral, Llama) dengan pendekatan NMT tersuai ini dari segi kualiti, kos dan kependaman.
Penjadualan Data Dinamik: Daripada penapisan statik, bangunkan strategi pembelajaran kurikulum yang menjadualkan pengenalan data sebenar vs. sintetik, bersih vs. hingar secara pintar semasa latihan.
Penyahhingaran Boleh Dijelaskan: Bergerak melebihi ambang persamaan kosinus kepada metrik kualiti data sintetik yang lebih boleh ditafsir, berpotensi menggunakan keyakinan model atau anggaran ketidakpastian.
Pemindahan Sifar-Tembakan: Meneroka bagaimana model yang dilatih pada rangkaian bahasa Sepanyol ini berprestasi pada bahasa Roman berkaitan yang tidak dilihat, mendorong ke arah keupayaan sifar-tembakan sebenar.

10. Rujukan

Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
Feng, F., Yang, Y., Cer, D., Ariwazhagan, N., & Wang, W. (2020). Language-agnostic BERT sentence embedding. arXiv preprint arXiv:2007.01852.
Koehn, P., et al. (2007). Moses: Open source toolkit for statistical machine translation. ACL.
Li, Z., et al. (2022). Pre-training multilingual neural machine translation by leveraging alignment information. Findings of EMNLP.
Ruder, S. (2023). Recent Advances in Natural Language Processing. ACL Rolling Review Survey Track.
Wang, Y., et al. (2020). Transduction ensemble learning for neural machine translation. AAAI.
Wu, Z., et al. (2021). Regularized dropout for neural machine translation. ACL-IJCNLP.
Wu, Z., et al. (2023). Synthetic data for neural machine translation: A survey. Computational Linguistics.
Zhu, J.Y., Park, T., Isola, P., & Efros, A.A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. ICCV.