انتقال چندزبانه و انطباق حوزه برای زبان‌های کم‌منبع اسپانیا: ارسال‌کننده HW-TSC در WMT 2024

1. مقدمه

این سند به تفصیل ارسال مرکز خدمات ترجمه هوآوی (HW-TSC) برای وظیفه "ترجمه به زبان‌های کم‌منبع اسپانیا" در WMT 2024 را شرح می‌دهد. تیم در سه جهت ترجمه خاص شرکت کرد: اسپانیایی به آراگونی (es→arg)، اسپانیایی به آرانی (es→arn) و اسپانیایی به آستوری (es→ast). چالش اصلی مورد بررسی، ترجمه ماشینی عصبی (NMT) برای زبان‌هایی با داده‌های آموزشی موازی به شدت محدود است، که مانعی رایج در فراگیرسازی فناوری ترجمه محسوب می‌شود.

راه‌حل پیشنهادی از ترکیبی از راهبردهای آموزشی پیشرفته اعمال‌شده بر یک معماری عمیق Transformer-big بهره می‌برد. این راهبردها شامل یادگیری انتقال چندزبانه، دراپ‌اوت منظمسازی‌شده، تولید داده مصنوعی از طریق ترجمه رو به جلو و معکوس، کاهش نویز با استفاده از حذف نویز LaBSE و تثبیت مدل از طریق یادگیری گروهی تراکنشی می‌شود. ادغام این تکنیک‌ها با هدف بیشینه‌سازی کیفیت ترجمه علیرغم کمبود داده انجام شد و به نتایج رقابتی در ارزیابی نهایی دست یافت.

2. مجموعه داده

آموزش منحصراً بر روی داده‌های ارائه‌شده توسط برگزارکنندگان WMT 2024 انجام شد تا مقایسه‌ای منصفانه تضمین شود. داده‌ها شامل پیکره‌های موازی دوزبانه و داده‌های تک‌زبانه در هر دو زبان مبدأ (اسپانیایی) و مقصد (زبان‌های کم‌منبع) است.

آمار داده

مقیاس داده‌های موجود در بین سه جفت زبانی به شدت متفاوت است که ماهیت "کم‌منبع" را، به ویژه برای آراگونی، برجسته می‌کند.

2.1 حجم داده

جدول زیر (بازسازی‌شده از PDF) داده‌های موجود برای هر جفت زبانی را خلاصه می‌کند. تمام ارقام بر حسب میلیون (M) جفت جمله یا جمله هستند.

جفت زبانی	داده دوزبانه	تک‌زبانه مبدأ (es)	تک‌زبانه مقصد
es → arg	0.06M	0.4M	0.26M
es → arn	2.04M	8M	6M
es → ast	13.36M	8M	3M

بینش کلیدی: اختلاف شدید در داده‌های دوزبانه (0.06M برای آراگونی در مقابل 13.36M برای آستوری) مستلزم تکنیک‌های قوی انتقال و افزایش داده است. پیکره‌های تک‌زبانه نسبتاً بزرگ‌تر به دارایی‌های حیاتی برای تولید داده موازی مصنوعی تبدیل می‌شوند.

3. مروری بر سیستم NMT

سیستم بر اساس یک معماری عمیق Transformer-big ساخته شده است. نوآوری در مدل پایه نیست، بلکه در خط‌مشی پیچیده راهبردهای آموزشی طراحی‌شده برای غلبه بر محدودیت‌های داده نهفته است:

پیش‌آموزی چندزبانه: یک مدل بر روی ترکیبی از داده‌های زبان‌های مرتبط (مانند سایر زبان‌های رومی) پیش‌آموزی می‌بیند. این اجازه می‌دهد پارامترها (واژگان، لایه‌های کدگذار/کدگشا) به اشتراک گذاشته شوند و انتقال دانش از زبان‌های پرمنبع‌تر به زبان‌های کم‌منبع‌تر را ممکن سازد.
دراپ‌اوت منظمسازی‌شده (Wu و همکاران، 2021): یک تکنیک دراپ‌اوت پیشرفته که با اعمال ماسک‌های دراپ‌اوت سازگار در لایه‌ها یا مراحل آموزشی مختلف، تعمیم مدل را بهبود می‌بخشد و از بیش‌برازش روی مجموعه‌داده‌های کوچک جلوگیری می‌کند.
تولید داده مصنوعی:
- ترجمه رو به جلو: ترجمه داده‌های تک‌زبانه زبان مقصد به زبان مبدأ برای ایجاد جفت‌های مبدأ-مقصد مصنوعی.
- ترجمه معکوس: ترجمه داده‌های تک‌زبانه زبان مبدأ به زبان مقصد، یک تکنیک اساسی برای افزایش داده NMT.
حذف نویز LaBSE (Feng و همکاران، 2020): استفاده از مدل تعبیه جمله BERT مستقل از زبان (LaBSE) برای فیلتر کردن جفت‌های جمله نویزی یا کم‌کیفیت از داده‌های مصنوعی، تا اطمینان حاصل شود که تنها مثال‌های باکیفیت بالا آموزش نهایی را هدایت می‌کنند.
یادگیری گروهی تراکنشی (Wang و همکاران، 2020): روشی برای ترکیب قابلیت‌های چندین مدل NMT آموزش‌دیده جداگانه (مثلاً آموزش‌دیده بر روی ترکیب‌های داده مختلف) در یک مدل واحد و قدرتمندتر، به جای انجام گروه‌بندی در زمان اجرا.

4. تنظیمات آزمایشی و نتایج

مقاله بیان می‌کند که استفاده از راهبردهای بهبود فوق منجر به نتیجه‌ای رقابتی در ارزیابی نهایی WMT 2024 شد. اگرچه نمرات خاص BLEU یا chrF++ در بخش استخراج‌شده ارائه نشده است، اما نتیجه، اثربخشی رویکرد چندراهبردی را برای سناریوهای کم‌منبع تأیید می‌کند. موفقیت احتمالاً ناشی از ماهیت مکمل راهبردهاست: یادگیری انتقال یک مقداردهی اولیه قوی فراهم می‌کند، داده مصنوعی مجموعه داده مؤثر را گسترش می‌دهد، حذف نویز آن را پاکسازی می‌کند و روش‌های منظمسازی/گروهی عملکرد نهایی را تثبیت و تقویت می‌کنند.

5. تحلیل هسته‌ای و تفسیر تخصصی

بینش هسته‌ای

ارسال هوآوی یک مثال کلاسیک از مهندسی عمل‌گرا بر نوآوری نظری است. در عرصه پرریسک WMT، آن‌ها یک زرادخانه منظم از تکنیک‌های جاافتاده اما قدرتمند را مستقر کرده‌اند، نه اینکه روی یک پیشرفت آزمایش‌نشده واحد شرط بندی کنند. این درباره اختراع یک مدل جدید نیست؛ بلکه درباره از بین بردن سیستماتیک مشکل کمبود داده از طریق یک دفاع لایه‌ای است: یادگیری انتقال برای دانش پایه، داده مصنوعی برای مقیاس، حذف نویز برای کنترل کیفیت و روش‌های گروهی برای عملکرد اوج. این یادآوری است که در هوش مصنوعی کاربردی، خط‌مشی‌های قوی اغلب از الگوریتم‌های شکننده بهتر عمل می‌کنند.

جریان منطقی

روش‌شناسی از یک منطق منسجم و آماده تولید پیروی می‌کند. با منطقی‌ترین نقطه اهرمی شروع می‌شود—انتقال چندزبانه—که از خویشاوندی زبانی زبان‌های منطقه‌ای اسپانیا بهره می‌برد. این مشابه پیش‌آموزی یک مدل بر روی عکاسی عمومی قبل از تنظیم دقیق برای یک سبک خاص است، اصلی که توسط مدل‌هایی مانند CycleGAN (Zhu و همکاران، 2017) که از مولدهای مشترک برای انطباق حوزه استفاده می‌کنند، تأیید شده است. سپس آن‌ها مسئله اصلی کمبود را با تقویت عظیم داده از طریق ترجمه رو به جلو/معکوس مورد توجه قرار می‌دهند، یک تاکتیک اثبات‌شده از دوران SMT و NMT. به طور حیاتی، آن‌ها این داده مصنوعی را در ظاهر نمی‌پذیرند؛ مرحله حذف نویز LaBSE یک دروازه کیفیت حیاتی است که نویزی را که می‌تواند مدل را تخریب کند فیلتر می‌کند—درسی که از مشکلات تلاش‌های اولیه ترجمه معکوس آموخته شده است. در نهایت، آن‌ها دستاوردها را از طریق یادگیری گروهی تثبیت می‌کنند تا استحکام را تضمین کنند.

نقاط قوت و ضعف

نقاط قوت: رویکرد جامع و کم‌ریسک است. هر مؤلفه یک ضعف شناخته‌شده در NMT کم‌منبع را مورد توجه قرار می‌دهد. استفاده از LaBSE برای حذف نویز به ویژه هوشمندانه است، که از یک مدل تعبیه جمله مدرن برای یک کار عملی پاکسازی داده بهره می‌برد. تمرکز بر یک معماری استاندارد Transformer-big، تکرارپذیری و پایداری را تضمین می‌کند.

نقاط ضعف: فیل بزرگی در اتاق، عدم کامل ادغام مدل زبان بزرگ (LLM) است. مقاله LLMها را به عنوان یک روند ذکر می‌کند اما از آن‌ها استفاده نمی‌کند. در سال 2024، عدم آزمایش با تنظیم دقیق یک LLM چندزبانه (مانند BLOOM یا Llama) برای این وظایف، یک حذف راهبردی قابل توجه است. LLMها، با دانش پارامتری وسیع و توانایی‌های یادگیری درون‌متنی خود، خطوط پایه جدیدی برای ترجمه کم‌منبع تعیین کرده‌اند، همانطور که در بررسی‌های ACL (Ruder، 2023) ذکر شده است. علاوه بر این، مقاله فاقد مطالعات حذفی است. ما نمی‌دانیم کدام راهبرد (حذف نویز در مقابل گروهی در مقابل انتقال) بیشترین سهم را در دستاوردها داشته است، که آن را به یک راه‌حل جعبه سیاه تبدیل می‌کند.

بینش‌های قابل اجرا

برای متخصصان: این خط‌مشی را کپی کنید، اما یک LLM تزریق کنید. از یک LLM چندزبانه به عنوان پایه برای یادگیری انتقال به جای، یا علاوه بر، یک مدل NMT چندزبانه سفارشی استفاده کنید. روش‌های تنظیم دقیق کارآمد پارامتر (PEFT) مانند LoRA را برای انطباق کارآمد LLM بررسی کنید. مراحل حذف نویز و گروهی همچنان بسیار ارزشمند هستند. برای محققان: این حوزه به معیارهای شفاف‌تری در مورد هزینه/سود خط‌مشی‌های داده مصنوعی در مقابل تنظیم دقیق LLM در تنظیمات کم‌منبع نیاز دارد. کار هوآوی یک خط پایه قوی برای مورد اول است؛ مقاله بعدی باید آن را به طور دقیق با مورد دوم مقایسه کند.

6. جزئیات فنی و فرمول‌بندی ریاضی

اگرچه بخش استخراج‌شده PDF فرمول‌های صریحی ارائه نمی‌دهد، تکنیک‌های هسته‌ای را می‌توان به طور رسمی توصیف کرد:

دراپ‌اوت منظمسازی‌شده (مفهومی): برخلاف دراپ‌اوت استاندارد که ماسک‌های تصادفی را مستقل اعمال می‌کند، دراپ‌اوت منظمسازی‌شده سازگاری را اعمال می‌کند. برای خروجی یک لایه $h$، به جای $h_{drop} = h \odot m$ که در آن $m \sim \text{Bernoulli}(p)$ هر بار تغییر می‌کند، یک نوع ممکن است از همان ماسک $m$ برای یک دنباله ورودی معین در چندین لایه یا مرحله آموزشی استفاده کند و مدل را مجبور کند تا ویژگی‌های قوی‌تری یاد بگیرد. تابع زیان در طول آموزش این سازگاری را به عنوان یک منظمساز در بر می‌گیرد.

هدف ترجمه معکوس: با توجه به یک جمله تک‌زبانه در زبان مقصد $y$، یک مدل معکوس $\theta_{y\rightarrow x}$ یک جمله مبدأ مصنوعی $\hat{x}$ تولید می‌کند. سپس جفت مصنوعی $(\hat{x}, y)$ برای آموزش مدل رو به جلو $\theta_{x\rightarrow y}$ با کمینه کردن لگاریتم درست‌نمایی منفی استفاده می‌شود: $\mathcal{L}_{BT} = -\sum \log P(y | \hat{x}; \theta_{x\rightarrow y})$.

فیلتر حذف نویز LaBSE: برای یک جفت مصنوعی $(\hat{x}, y)$، تعبیه‌های LaBSE آن‌ها $e_{\hat{x}}, e_{y}$ محاسبه می‌شوند. جفت تنها در صورتی حفظ می‌شود که شباهت کسینوسی آن‌ها از یک آستانه $\tau$ فراتر رود: $\frac{e_{\hat{x}} \cdot e_{y}}{\|e_{\hat{x}}\|\|e_{y}\|} > \tau$. این جفت‌هایی را که همترازی معنایی ضعیفی دارند فیلتر می‌کند.

7. نتایج و توصیف نمودار

محتوای PDF ارائه‌شده شامل جداول یا نمودارهای نتایج خاصی نیست. بر اساس توصیف، یک نمودار نتایج فرضی احتمالاً موارد زیر را نشان می‌دهد:

نوع نمودار: نمودار میله‌ای گروه‌بندی‌شده.
محور X: سه جفت زبانی: es→arg، es→arn، es→ast.
محور Y: نمرات معیار ارزیابی خودکار (مانند BLEU، chrF++).
میله‌ها: چندین میله برای هر جفت زبانی که مقایسه می‌کند: 1) یک خط پایه (Transformer-big فقط روی داده دوزبانه)، 2) +انتقال چندزبانه، 3) +داده مصنوعی (BT/FT)، 4) +حذف نویز و گروهی (سیستم کامل HW-TSC).
روند مورد انتظار: افزایش قابل توجه نمره از خط پایه به سیستم کامل، با بیشترین بهبود نسبی مورد انتظار برای کم‌منبع‌ترین زبان، es→arg، که اثربخشی تکنیک‌ها را در کمبود شدید داده نشان می‌دهد.

نتیجه‌گیری مقاله مبنی بر اینکه سیستم به "نتایج رقابتی" دست یافته است، دلالت بر این دارد که میله‌های نهایی برای HW-TSC در راس یا نزدیک به راس جدول رده‌بندی برای هر وظیفه در ارزیابی WMT 2024 قرار خواهند داشت.

8. چارچوب تحلیل: یک مطالعه موردی

سناریو: یک شرکت فناوری می‌خواهد یک سیستم ترجمه برای یک گویش کم‌منبع جدید، "LangX"، بسازد که تنها 10,000 جمله موازی اما 1 میلیون جمله تک‌زبانه در یک زبان پرمنبع مرتبط "LangH" دارد.

کاربرد چارچوب (الهام‌گرفته از HW-TSC):

فاز 1 - پایه (انتقال): یک مدل چندزبانه را بر روی داده‌های عمومی در دسترس برای LangH و سایر زبان‌های همان خانواده پیش‌آموزی دهید. مدل LangH→LangX را با این وزن‌ها مقداردهی اولیه کنید.
فاز 2 - مقیاس (ساخت مصنوعی):
- از مدل اولیه برای انجام ترجمه معکوس روی 1M جمله تک‌زبانه LangH استفاده کنید و جفت‌های مصنوعی (LangH، synthetic_LangX) ایجاد کنید.
- یک مدل معکوس (LangX→LangH) را روی 10K جفت واقعی آموزش دهید، سپس از آن برای ترجمه رو به جلو روی داده‌های تک‌زبانه LangX (در صورت موجود بودن) استفاده کنید و جفت‌های مصنوعی (synthetic_LangH، LangX) ایجاد کنید.
فاز 3 - پالایش (حذف نویز): تمام جفت‌های واقعی و مصنوعی را ترکیب کنید. از یک مدل تعبیه جمله (مانند LaBSE) برای محاسبه نمرات شباهت برای هر جفت مصنوعی استفاده کنید. تمام جفت‌های زیر یک آستانه شباهت کالیبره‌شده (مثلاً 0.8) را فیلتر کنید.
فاز 4 - بهینه‌سازی (آموزش و گروهی): چندین مدل نهایی را روی مجموعه داده پاک‌شده و تقویت‌شده با دراپ‌اوت منظمسازی‌شده آموزش دهید. از یادگیری گروهی تراکنشی برای ترکیب آن‌ها در یک مدل تولیدی واحد استفاده کنید.

این رویکرد ساختاریافته و دارای دروازه فازی، ریسک پروژه را کاهش می‌دهد و نقاط عطف واضحی ارائه می‌دهد، که فرآیند تحقیق و توسعه صنعتی مشهود در کار هوآوی را منعکس می‌کند.

9. کاربردها و جهت‌های آینده

تکنیک‌های نشان‌داده شده کاربرد گسترده‌ای فراتر از زبان‌های خاص اسپانیا دارند:

حفظ دیجیتال: امکان ترجمه و ایجاد محتوا برای صدها زبان در معرض خطر جهانی با حداقل داده موازی.
انطباق حوزه سازمانی: انطباق سریع مدل‌های MT عمومی با اصطلاحات بسیار تخصصی (مانند حقوقی، پزشکی) که در آن داده موازی درون‌حوزه‌ای کم است اما راهنماهای تک‌زبانه/اسناد قدیمی وجود دارند.
یادگیری کم‌منبع چندوجهی: اصول خط‌مشی—انتقال، داده مصنوعی، حذف نویز—می‌تواند برای وظایف کم‌منبع عنوان‌گذاری تصویر یا ترجمه گفتار تطبیق داده شود.

جهت‌های تحقیقاتی آینده:

ادغام LLM: فوری‌ترین جهت، ادغام این خط‌مشی با LLMهای فقط کدگشا است. کار آینده باید تنظیم دقیق (مانند Mistral، Llama) را در مقابل این رویکرد NMT سفارشی از نظر کیفیت، هزینه و تأخیر مقایسه کند.
زمان‌بندی پویای داده: به جای فیلتر کردن ایستا، راهبردهای یادگیری برنامه درسی توسعه دهید که به طور هوشمندانه زمان معرفی داده واقعی در مقابل مصنوعی، تمیز در مقابل نویزی را در طول آموزش برنامه‌ریزی کند.
حذف نویز قابل توضیح: فراتر از آستانه‌های شباهت کسینوسی به معیارهای قابل تفسیرتر برای کیفیت داده مصنوعی حرکت کنید، که به طور بالقوه از اطمینان مدل یا تخمین‌های عدم قطعیت استفاده می‌کند.
انتقال صفر-شات: بررسی اینکه چگونه مدل‌های آموزش‌دیده بر روی این مجموعه از زبان‌های اسپانیایی بر روی زبان‌های رومی مرتبط اما دیده‌نشده عمل می‌کنند، و به سمت قابلیت واقعی صفر-شات پیش می‌رود.

10. مراجع

Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
Feng, F., Yang, Y., Cer, D., Ariwazhagan, N., & Wang, W. (2020). Language-agnostic BERT sentence embedding. arXiv preprint arXiv:2007.01852.
Koehn, P., et al. (2007). Moses: Open source toolkit for statistical machine translation. ACL.
Li, Z., et al. (2022). Pre-training multilingual neural machine translation by leveraging alignment information. Findings of EMNLP.
Ruder, S. (2023). Recent Advances in Natural Language Processing. ACL Rolling Review Survey Track.
Wang, Y., et al. (2020). Transduction ensemble learning for neural machine translation. AAAI.
Wu, Z., et al. (2021). Regularized dropout for neural machine translation. ACL-IJCNLP.
Wu, Z., et al. (2023). Synthetic data for neural machine translation: A survey. Computational Linguistics.
Zhu, J.Y., Park, T., Isola, P., & Efros, A.A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. ICCV.