النقل متعدد اللغات والتكيف مع المجال للغات إسبانيا محدودة الموارد: تقديم HW-TSC لمسابقة WMT 2024

1. المقدمة

يُفصّل هذا الوثيقة تقديم مركز خدمات الترجمة في هواوي (HW-TSC) لمهمة "الترجمة إلى لغات إسبانيا محدودة الموارد" في مسابقة WMT 2024. شارك الفريق في ثلاثة اتجاهات ترجمة محددة: من الإسبانية إلى الأراغونية (es→arg)، ومن الإسبانية إلى الأرانية (es→arn)، ومن الإسبانية إلى الأستورية (es→ast). التحدي الأساسي الذي تمت معالجته هو الترجمة الآلية العصبية (NMT) للغات ذات بيانات التدريب المتوازية المحدودة بشدة، وهو عائق شائع في جعل تكنولوجيا الترجمة شاملة للجميع.

يعتمد الحل المقترح على مزيج من استراتيجيات التدريب المتقدمة المطبقة على بنية Transformer-big العميقة. تشمل هذه الاستراتيجيات التعلم بالنقل متعدد اللغات، والإسقاط المنتظم، وتوليد البيانات الاصطناعية عبر الترجمة الأمامية والخلفية، وتقليل الضوضاء باستخدام تنقية LaBSE، وتوحيد النموذج من خلال التعلم المجمع بالتحويل. هدف دمج هذه التقنيات إلى تعظيم جودة الترجمة على الرغم من ندرة البيانات، مما حقق نتائج تنافسية في التقييم النهائي.

2. مجموعة البيانات

تم إجراء التدريب حصريًا على البيانات المقدمة من منظمي مسابقة WMT 2024، مما يضمن مقارنة عادلة. تشمل البيانات نصوصًا متوازية ثنائية اللغة وبيانات أحادية اللغة في كل من اللغة المصدر (الإسبانية) واللغات الهدف (محدودة الموارد).

إحصائيات البيانات

يختلف حجم البيانات المتاحة بشكل كبير عبر أزواج اللغات الثلاثة، مما يسلط الضوء على طبيعة "محدودية الموارد"، خاصة بالنسبة للأراغونية.

2.1 حجم البيانات

يلخص الجدول التالي (المعاد بناؤه من ملف PDF) البيانات المتاحة لكل زوج لغوي. جميع الأرقام بالملايين (M) من أزواج الجمل أو الجمل الفردية.

زوج اللغات	البيانات ثنائية اللغة	البيانات الأحادية للمصدر (es)	البيانات الأحادية للهدف
es → arg	0.06M	0.4M	0.26M
es → arn	2.04M	8M	6M
es → ast	13.36M	8M	3M

الرؤية الأساسية: التفاوت الشديد في البيانات ثنائية اللغة (0.06M للأراغونية مقابل 13.36M للأستورية) يستلزم تقنيات نقل وتكبير بيانات قوية. تصبح النصوص الأحادية اللغة الأكبر حجمًا نسبيًا أصولًا حاسمة لتوليد بيانات متوازية اصطناعية.

3. نظرة عامة على نظام الترجمة الآلية العصبية

يُبنى النظام على بنية Transformer-big العميقة. يكمن الابتكار ليس في النموذج الأساسي، ولكن في خط أنابيب استراتيجيات التدريب المتطور المصمم للتغلب على قيود البيانات:

التدريب المسبق متعدد اللغات: يتم تدريب نموذج مسبقًا على مزيج من بيانات لغات ذات صلة (مثل اللغات الرومانسية الأخرى). هذا يسمح بمشاركة المعاملات (المفردات، طبقات المُشفر/المُفكك)، مما يمكّن نقل المعرفة من اللغات عالية الموارد إلى اللغات منخفضة الموارد.
الإسقاط المنتظم (Wu et al., 2021): تقنية إسقاط متقدمة تحسن تعميم النموذج وتمنع الإفراط في التخصيص على مجموعات البيانات الصغيرة من خلال تطبيق أقنعة إسقاط متسقة عبر طبقات أو خطوات تدريب مختلفة.
توليد البيانات الاصطناعية:
- الترجمة الأمامية: ترجمة البيانات الأحادية للغة الهدف مرة أخرى إلى اللغة المصدر لإنشاء أزواج مصدر-هدف اصطناعية.
- الترجمة الخلفية: ترجمة البيانات الأحادية للغة المصدر إلى اللغة الهدف، وهي تقنية أساسية لتكبير بيانات الترجمة الآلية العصبية.
تنقية LaBSE (Feng et al., 2020): استخدام نموذج LaBSE (تضمين الجملة اللغوي المحايد لـ BERT) لتصفية أزواج الجمل المشوشة أو منخفضة الجودة من البيانات الاصطناعية، مما يضمن أن الأمثلة عالية الجودة فقط هي التي توجه التدريب النهائي.
التعلم المجمع بالتحويل (Wang et al., 2020): طريقة لدمج قدرات عدة نماذج مترجمة آليًا عصبية مدربة بشكل فردي (مثل المدربة على مخاليط بيانات مختلفة) في نموذج واحد أكثر قوة، بدلاً من إجراء تجميع أثناء وقت التشغيل.

4. الإعداد التجريبي والنتائج

تشير الورقة البحثية إلى أن استخدام استراتيجيات التحسين المذكورة أعلاه أدى إلى نتيجة تنافسية في التقييم النهائي لـ WMT 2024. بينما لم يتم تقديم درجات BLEU أو chrF++ محددة في المقتطف، فإن النتيجة تؤكد فعالية النهج متعدد الاستراتيجيات في سيناريوهات الموارد المحدودة. من المرجح أن ينبع النجاح من الطبيعة التكميلية للاستراتيجيات: يوفر التعلم بالنقل تهيئة قوية، وتوسع البيانات الاصطناعية مجموعة البيانات الفعالة، وتنقيحها، وتعمل طرق التقنين والتجميع على استقرار وتعزيز الأداء النهائي.

5. التحليل الأساسي والتفسير الخبير

الرؤية الأساسية

تقديم هواوي هو مثال نموذجي على الهندسة العملية بدلاً من الحداثة النظرية. في الساحة عالية المخاطر لـ WMT، قاموا بنشر ترسانة منظمة جيدًا من التقنيات الراسخة والقوية، بدلاً من المراهنة على اختراق واحد غير مختبر. لا يتعلق الأمر باختراع نموذج جديد؛ بل يتعلق بتفكيك مشكلة ندرة البيانات بشكل منهجي من خلال دفاع متعدد الطبقات: التعلم بالنقل للمعرفة الأساسية، والبيانات الاصطناعية للتوسع، والتنقية لمراقبة الجودة، وطرق التجميع لأداء الذروة. إنه تذكير بأنه في الذكاء الاصطناعي التطبيقي، غالبًا ما تتفوق خطوط الأنابيب القوية على الخوارزميات الهشة.

التدفق المنطقي

تتبع المنهجية منطقًا متماسكًا وجاهزًا للإنتاج. تبدأ من نقطة الاستفادة الأكثر منطقية - النقل متعدد اللغات - مستغلة القرابة اللغوية للغات المناطق الإسبانية. هذا يشبه تدريب نموذج مسبقًا على التصوير الفوتوغرافي العام قبل ضبطه لأسلوب محدد، وهو مبدأ تم التحقق منه بواسطة نماذج مثل CycleGAN (Zhu et al., 2017) التي تستخدم مولّدات مشتركة للتكيف مع المجال. ثم يعالجون مشكلة الندرة الأساسية عن طريق تضخيم البيانات بشكل كبير عبر الترجمة الأمامية/الخلفية، وهي تكتيك مثبت من عصور الترجمة الآلية الإحصائية والعصبية. والأهم من ذلك، أنهم لا يأخذون هذه البيانات الاصطناعية على محمل الجد؛ خطوة تنقية LaBSE هي بوابة جودة حرجة، تقوم بتصفية الضوضاء التي يمكن أن تدهور النموذج - وهو درس مستفاد من عيوب جهود الترجمة الخلفية المبكرة. أخيرًا، يقومون بتوحيد المكاسب عبر التعلم المجمع، مما يضمن المتانة.

نقاط القوة والضعف

نقاط القوة: النهج شامل ومنخفض المخاطر. يعالج كل مكون ضعفًا معروفًا في الترجمة الآلية العصبية محدودة الموارد. استخدام LaBSE للتنقية ذكي بشكل خاص، حيث يستفيد من نموذج تضمين جملة حديث لمهمة عملية لتنظيف البيانات. يركز على بنية Transformer-big القياسية مما يضمن إمكانية إعادة الإنتاج والاستقرار.

نقاط الضعف: الفيل في الغرفة هو الغياب التام للتكامل مع نماذج اللغة الكبيرة (LLM). تذكر الورقة البحثية نماذج اللغة الكبيرة كاتجاه ولكنها لا تستخدمها. في عام 2024، عدم تجربة ضبط نموذج لغة كبير متعدد اللغات (مثل BLOOM أو Llama) لهذه المهام هو إغفال استراتيجي كبير. لقد وضعت نماذج اللغة الكبيرة، بمعرفتها الواسعة المعيارية وقدرات التعلم في السياق، معايير جديدة للترجمة محدودة الموارد، كما لوحظ في استطلاعات ACL (Ruder, 2023). علاوة على ذلك، تفتقر الورقة إلى دراسات الإزالة. لا نعرف أي استراتيجية (التنقية مقابل التجميع مقابل النقل) ساهمت أكثر في المكاسب، مما يجعلها حلًا صندوقًا أسود.

رؤى قابلة للتنفيذ

للممارسين: انسخ خط الأنابيب هذا، ولكن أدخل نموذج لغة كبير. استخدم نموذج لغة كبير متعدد اللغات كأساس للتعلم بالنقل بدلاً من، أو بالإضافة إلى، نموذج ترجمة آلية عصبية متعدد اللغات مخصص. استكشف طرق الضبط الفعالة للمعاملات (PEFT) مثل LoRA لتكييف نموذج اللغة الكبيرة بكفاءة. تظل خطوات التنقية والتجميع ذات قيمة عالية. للباحثين: يحتاج المجال إلى معايير أوضح حول التكلفة/الفائدة لخطوط أنابيب البيانات الاصطناعية مقابل ضبط نماذج اللغة الكبيرة في بيئات الموارد المحدودة. عمل هواوي هو خط أساس قوي للأول؛ يجب أن تقارن الورقة البحثية التالية ذلك بشكل صارم بالأخير.

6. التفاصيل التقنية والصياغة الرياضية

بينما لا يوفر مقتطف ملف PDF صيغًا صريحة، يمكن وصف التقنيات الأساسية بشكل رسمي:

الإسقاط المنتظم (مفهوميًا): على عكس الإسقاط القياسي الذي يطبق أقنعة عشوائية بشكل مستقل، يفرض الإسقاط المنتظم الاتساق. لمخرجات طبقة $h$، بدلاً من $h_{drop} = h \odot m$ حيث $m \sim \text{Bernoulli}(p)$ يتغير في كل مرة، قد يستخدم البديل نفس القناع $m$ لتسلسل إدخال معين عبر طبقات أو خطوات تدريب متعددة، مما يجبر النموذج على تعلم ميزات أكثر متانة. تتضمن دالة الخسارة أثناء التدريب هذا الاتساق كمقوم.

هدف الترجمة الخلفية: بالنظر إلى جملة أحادية اللغة في اللغة الهدف $y$، يولد نموذج عكسي $\theta_{y\rightarrow x}$ جملة مصدر اصطناعية $\hat{x}$. ثم يتم استخدام الزوج الاصطناعي $(\hat{x}, y)$ لتدريب النموذج الأمامي $\theta_{x\rightarrow y}$ عن طريق تقليل الاحتمال اللوغاريتمي السلبي: $\mathcal{L}_{BT} = -\sum \log P(y | \hat{x}; \theta_{x\rightarrow y})$.

مرشح تنقية LaBSE: بالنسبة لزوج اصطناعي $(\hat{x}, y)$، يتم حساب تضمينات LaBSE الخاصة بهما $e_{\hat{x}}, e_{y}$. يتم الاحتفاظ بالزوج فقط إذا تجاوز تشابه جيب التمام الخاص بهما عتبة $\tau$: $\frac{e_{\hat{x}} \cdot e_{y}}{\|e_{\hat{x}}\|\|e_{y}\|} > \tau$. يقوم هذا بتصفية الأزواج التي يكون فيها المحاذاة الدلالية ضعيفة.

7. النتائج ووصف المخطط البياني

المحتوى المقدم في ملف PDF لا يتضمن جداول أو مخططات نتائج محددة. بناءً على الوصف، من المحتمل أن يُظهر مخطط النتائج الافتراضي:

نوع المخطط: مخطط شريطي مجمع.
محور السينات (X): أزواج اللغات الثلاثة: es→arg، es→arn، es→ast.
محور الصادات (Y): درجات مقاييس التقييم التلقائي (مثل BLEU، chrF++).
الأشرطة: أشرطة متعددة لكل زوج لغوي تقارن: 1) خط الأساس (Transformer-big على البيانات ثنائية اللغة فقط)، 2) +النقل متعدد اللغات، 3) +البيانات الاصطناعية (BT/FT)، 4) +التنقية والتجميع (نظام HW-TSC الكامل).
الاتجاه المتوقع: زيادة كبيرة في الدرجة من خط الأساس إلى النظام الكامل، مع توقع أكبر تحسن نسبي للغة الأقل مواردًا، es→arg، مما يوضح فعالية التقنيات في ندرة البيانات الشديدة.

استنتاج الورقة البحثية بأن النظام حقق "نتائج تنافسية" يعني أن الأشرطة النهائية لـ HW-TSC ستكون في أو بالقرب من صدارة الترتيب لكل مهمة في تقييم WMT 2024.

8. إطار التحليل: دراسة حالة

السيناريو: تريد شركة تكنولوجية بناء نظام ترجمة للهجة جديدة محدودة الموارد، "LangX"، مع 10,000 جملة متوازية فقط ولكن مليون جملة أحادية اللغة في لغة عالية الموارد ذات صلة "LangH".

تطبيق الإطار (مستوحى من HW-TSC):

المرحلة 1 - الأساس (النقل): تدريب نموذج متعدد اللغات مسبقًا على البيانات المتاحة للجمهور لـ LangH ولغات أخرى في نفس العائلة. تهيئة نموذج LangH→LangX بهذه الأوزان.
المرحلة 2 - التوسع (الاصطناع):
- استخدام النموذج الأولي لإجراء الترجمة الخلفية على مليون جملة أحادية لـ LangH، وإنشاء أزواج اصطناعية (LangH، synthetic_LangX).
- تدريب نموذج عكسي (LangX→LangH) على 10K زوج حقيقي، ثم استخدامه للترجمة الأمامية على بيانات LangX الأحادية (إذا كانت متاحة)، وإنشاء أزواج اصطناعية (synthetic_LangH، LangX).
المرحلة 3 - التنقية: جمع جميع الأزواج الحقيقية والاصطناعية. استخدام نموذج تضمين الجملة (مثل LaBSE) لحساب درجات التشابه لكل زوج اصطناعي. تصفية جميع الأزواج التي تقل عن عتبة تشابه معايرة (مثل 0.8).
المرحلة 4 - التحسين (التدريب والتجميع): تدريب عدة نماذج نهائية على مجموعة البيانات المعززة المنقاة باستخدام الإسقاط المنتظم. استخدام التعلم المجمع بالتحويل لدمجها في نموذج إنتاج واحد.

يقوم هذا النهج المنظم ذو المراحل بتقليل مخاطر المشروع ويوفر معالم واضحة، مما يعكس عملية البحث والتطوير الصناعية الواضحة في عمل هواوي.

9. التطبيقات المستقبلية والاتجاهات

التقنيات المثبتة لها قابلية تطبيق واسعة تتجاوز اللغات المحددة لإسبانيا:

الحفظ الرقمي: تمكين الترجمة وإنشاء المحتوى لمئات اللغات العالمية المهددة بالانقراض ذات البيانات المتوازية الدنيا.
التكيف مع المجال المؤسسي: تكييف نماذج الترجمة الآلية العامة بسرعة للمصطلحات المتخصصة للغاية (مثل القانونية، الطبية) حيث تكون البيانات المتوازية داخل المجال نادرة ولكن توجد وثائق أحادية اللغة/تراثية.
التعلم متعدد الوسائط محدود الموارد: يمكن تكييف مبادئ خط الأنابيب - النقل، البيانات الاصطناعية، التنقية - لمهام كتابة تعليقات الصور أو ترجمة الكلام محدودة الموارد.

اتجاهات البحث المستقبلية:

تكامل نماذج اللغة الكبيرة: الاتجاه الأكثر إلحاحًا هو دمج خط الأنابيب هذا مع نماذج اللغة الكبيرة ذات المُفكك فقط. يجب أن تقارن الأعمال المستقبلية بين الضبط الدقيق (مثل Mistral، Llama) مقابل نهج الترجمة الآلية العصبية المخصص هذا من حيث الجودة والتكلفة وزمن الاستجابة.
جدولة البيانات الديناميكية: بدلاً من التصفية الثابتة، تطوير استراتيجيات تعليم منهجية تقوم بجدولة إدخال البيانات الحقيقية مقابل الاصطناعية، النظيفة مقابل المشوشة بشكل ذكي أثناء التدريب.
التنقية القابلة للتفسير: الانتقال إلى ما هو أبعد من عتبات تشابه جيب التمام إلى مقاييس أكثر قابلية للتفسير لجودة البيانات الاصطناعية، باستخدام ثقة النموذج أو تقديرات عدم اليقين.
النقل بدون أمثلة: استكشاف كيفية أداء النماذج المدربة على هذه المجموعة من اللغات الإسبانية على لغات رومانسية غير مرئية ولكن ذات صلة، دفعًا نحو قدرة حقيقية بدون أمثلة.

10. المراجع

Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
Feng, F., Yang, Y., Cer, D., Ariwazhagan, N., & Wang, W. (2020). Language-agnostic BERT sentence embedding. arXiv preprint arXiv:2007.01852.
Koehn, P., et al. (2007). Moses: Open source toolkit for statistical machine translation. ACL.
Li, Z., et al. (2022). Pre-training multilingual neural machine translation by leveraging alignment information. Findings of EMNLP.
Ruder, S. (2023). Recent Advances in Natural Language Processing. ACL Rolling Review Survey Track.
Wang, Y., et al. (2020). Transduction ensemble learning for neural machine translation. AAAI.
Wu, Z., et al. (2021). Regularized dropout for neural machine translation. ACL-IJCNLP.
Wu, Z., et al. (2023). Synthetic data for neural machine translation: A survey. Computational Linguistics.
Zhu, J.Y., Park, T., Isola, P., & Efros, A.A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. ICCV.