DGT-TM: ذاكرة ترجمة متعددة اللغات واسعة النطاق من المفوضية الأوروبية

22 لغة

اللغات الرسمية للاتحاد الأوروبي المشمولة

231 زوجًا

أزواج ترجمة لغوية فريدة

نمو بمقدار الضعف

الزيادة في الحجم من إصدار 2007 إلى إصدار 2011

تحديثات سنوية

جدول إصدار مخطط له

1. المقدمة والغرض

سجلت المفوضية الأوروبية (EC)، من خلال المديرية العامة للترجمة (DGT) والمركز المشترك للبحوث (JRC)، سابقة في مجال البيانات المفتوحة متعددة اللغات مع ذاكرة الترجمة DGT-TM. يشكل هذا المورد جزءًا من مبادرة أوسع لإتاحة أصول لغوية واسعة النطاق، تلي المجموعة المتوازية JRC-Acquis. يحتوي إصدار 2011 من DGT-TM على وثائق من الفترة 2004-2010 وهو ضعف حجم إصدار 2007. يُدفع بهذا الجهد من خلال المبدأ الأساسي للاتحاد الأوروبي المتمثل في تعدد اللغات، بهدف تعزيز التنوع الثقافي والشفافية والوصول الديمقراطي إلى المعلومات لجميع مواطني الاتحاد الأوروبي بلغاتهم الأم.

يتوافق هذا الإصدار مع التوجيه 2003/98/EC بشأن إعادة استخدام معلومات القطاع العام، معترفًا بمثل هذه البيانات كمادة خام قيمة للابتكار الرقمي والخدمات العابرة للحدود.

2. مورد DGT-TM

DGT-TM هو مجموعة من الجمل وترجماتها البشرية المحترفة عبر 22 لغة رسمية للاتحاد الأوروبي.

2.1. مصدر البيانات وتكوينها

تنشأ البيانات الأساسية من سير عمل الترجمة في المديرية العامة للترجمة (DGT) التابعة للمفوضية الأوروبية. وهي تتكون من وثائق تشريعية وسياسية وإدارية أصلية، مما يضمن ترجمات عالية الجودة ومتخصصة في المجال. يتم تنظيم الذاكرة على شكل أزواج جمل مترابطة، وهو التنسيق القياسي لتبادل ذاكرة الترجمة (TMX).

2.2. تاريخ الإصدار والإحصائيات

كان الإصدار الرئيسي الأول في عام 2007. يشمل إصدار 2011 (DGT-TM Release 2011) البيانات حتى نهاية عام 2010 ويشكل توسعًا كبيرًا. تخطط المفوضية الأوروبية لإصدارات سنوية من الآن فصاعدًا، مما يخلق موردًا حيًا ومتناميًا. يشمل النطاق جميع أزواج الترجمة الاتجاهية الممكنة البالغ عددها 231 بين اللغات الـ 22.

3. التطبيقات وحالات الاستخدام

3.1. للمترجمين المحترفين

تُستخدم DGT-TM بشكل أساسي مع برامج ذاكرة الترجمة لزيادة إنتاجية المترجمين وضمان الاتساق المصطلحي من خلال اقتراح ترجمات سابقة لجمل متطابقة أو مشابهة.

3.2. لأبحاث تكنولوجيا اللغة

هذا المورد لا يقدر بثمن للبحث والتطوير في:

الترجمة الآلية الإحصائية (SMT): كبيانات تدريب لبناء وتقييم أنظمة SMT لأزواج اللغات محدودة الموارد.
استخراج المصطلحات: لاستخراج قوائم المصطلحات ثنائية ومتعددة اللغات المتخصصة في المجال.
التعرف على الكيانات المسماة (NER): لتطوير وتقييم أدوات NER عبر اللغات.
تصنيف وتجميع النصوص متعددة اللغات: كمجموعة بيانات موسومة لتصنيف المستندات عبر اللغات.

4. السياق التقني والقانوني

يعمل الإصدار في إطار التوجيه 2003/98/EC، الذي يشجع على إعادة استخدام معلومات القطاع العام لتعزيز الابتكار وسوق رقمية واحدة تنافسية. يتم توفير البيانات مجانًا، مما يخفض حواجز الدخول للباحثين والمؤسسات الصغيرة والمتوسطة في قطاع تكنولوجيا اللغة.

5. الموارد الأوروبية ذات الصلة

DGT-TM هو جزء من نظام بيئي أكبر للموارد المفتوحة متعددة اللغات من مؤسسات الاتحاد الأوروبي:

EUR-Lex: نقطة الوصول المجانية إلى قانون الاتحاد الأوروبي بـ 23 لغة.
IATE: قاعدة البيانات التفاعلية للمصطلحات في أوروبا.
EuroVoc: مكنز متعدد اللغات ومتعدد التخصصات.
JRC-Names: مورد للتعرف على الكيانات المسماة وتوحيدها.
JEX (JRC EuroVoc Indexer): برنامج للتصنيف التلقائي للمستندات متعددة اللغات باستخدام EuroVoc.

توفر هذه الموارد مجتمعة أساسًا شاملاً للوصول إلى المعلومات متعددة اللغات ومعالجتها.

6. الرؤية الأساسية ومنظور المحلل

الرؤية الأساسية: DGT-TM ليست مجرد مجموعة بيانات؛ إنها أصل جيوسياسي استراتيجي. تستفيد المفوضية الأوروبية من موقعها الفريد باعتبارها أكبر مُشغل للمترجمين المحترفين في العالم لبناء أكثر مجموعة نصوص متعددة اللغات شمولاً في المجال العام موجودة. يحول هذا التحرك بذكاء ضرورة بيروقراطية – وهي الترجمة – إلى ميزة تنافسية للاقتصاد الرقمي والبحثي في الاتحاد الأوروبي. إنه يعارض مباشرة هيمنة مجموعات البيانات الاحتكارية، التي غالبًا ما تكون مركزة على اللغة الإنجليزية، والتي تحتفظ بها شركات التكنولوجيا الأمريكية الكبرى، كما نوقش في مصادر مثل ACL Anthology فيما يتعلق بنقص البيانات لمعالجة اللغات الطبيعية.

التدفق المنطقي: المنطق لا تشوبه شائبة: 1) يتطلب قانون الاتحاد الأوروبي تعدد اللغات، 2) يولد هذا كميات هائلة من بيانات الترجمة عالية الجودة، 3) من خلال جعل هذه البيانات مفتوحة المصدر، تغذي المفوضية الأوروبية الابتكار الخارجي في تكنولوجيا اللغة (LT)، 4) تحسن تكنولوجيا اللغة، بدورها، تقلل التكلفة المستقبلية وتزيد كفاءة عمليات الترجمة نفسها التي أنتجت البيانات. إنها حلقة حميدة مصممة لترسيخ دور الاتحاد الأوروبي كمركز عالمي للذكاء الاصطناعي متعدد اللغات.

نقاط القوة والضعف: تكمن قوته في نطاقه وجودته ووضوحه القانوني الذي لا مثيل له. على عكس المجموعات النصية المستخرجة من الويب، فهو نظيف، مترجم بشكل احترافي، ويأتي مع حقوق استخدام واضحة. ومع ذلك، فإن عيبه الرئيسي هو التحيز المجالي. تميل المجموعة النصية بشدة نحو الخطاب القانوني والإداري والسياسي. وهذا يحد من قابليتها للتطبيق المباشر لتدريب أنظمة ترجمة آلية قوية وعامة الأغراض للغة العامية أو التجارية، وهي فجوة تبرز عند مقارنة نوعها بالبيانات متعددة المجالات المستخدمة في نماذج مثل NMT من جوجل. إنها كنز لمعالجة اللغات الطبيعية المؤسسية، ولكنها ليست حلًا واحدًا يناسب الجميع.

رؤى قابلة للتنفيذ: بالنسبة للباحثين، يجب أن تكون الأولوية لتكيف المجال. استخدم DGT-TM كمجموعة نصوص بذرة عالية الجودة وطبق تقنيات مثل الضبط الدقيق أو الترجمة العكسية مع بيانات أوسع وأكثر ضوضاء لبناء نماذج أكثر تنوعًا. بالنسبة لصانعي السياسات خارج الاتحاد الأوروبي، هذا نموذج: اشترط الإصدار المفتوح لذكريات الترجمة الحكومية. بالنسبة لرواد الأعمال، تكمن الفرصة في بناء أدوات SaaS متخصصة للبحث والتحليل متعدد اللغات المرتكز على القانون أو الامتثال، مستفيدين مباشرة من هذه القوة المتخصصة في المجال بدلاً من محاربة التحيز.

7. التفاصيل التقنية والإطار الرياضي

تكمن القيمة الأساسية لـ DGT-TM في ترابط جملها المتوازي. بشكل رسمي، بالنسبة لمستند $D$ مترجم من اللغة المصدر $L_s$ إلى اللغة الهدف $L_t$، تحتوي ذاكرة الترجمة على مجموعة من الأزواج المترابطة $\{(s_1, t_1), (s_2, t_2), ..., (s_n, t_n)\}$، حيث $s_i$ هي جملة مصدر و $t_i$ هي ترجمتها المنتجة بواسطة الإنسان.

في الترجمة الآلية الإحصائية، تُستخدم مثل هذه المجموعة النصية لتقدير معلمات نموذج الترجمة. أحد المكونات الأساسية هو احتمالية ترجمة العبارة $\phi(\bar{t}|\bar{s})$، المقدرة من التكرارات النسبية داخل البيانات المترابطة: $$\phi(\bar{t}|\bar{s}) = \frac{\text{count}(\bar{s}, \bar{t})}{\sum_{\bar{t}'}\text{count}(\bar{s}, \bar{t}')}$$ حيث $\bar{s}$ و $\bar{t}$ هي سلاسل متجاورة من الكلمات (عبارات) مستخرجة من أزواج الجمل المترابطة. يسمح الحجم الهائل لـ DGT-TM بتقدير أكثر موثوقية لهذه الاحتمالات، خاصة للعبارات الأطول وأزواج اللغات ذات التردد المنخفض.

لاستخراج المصطلحات ثنائية اللغة، يمكن حساب مقاييس مثل المعلومات المتبادلة النقطية (PMI) عبر المجموعة النصية المترابطة لتحديد ترجمات المصطلحات المحتملة: $$\text{PMI}(s, t) = \log_2 \frac{P(s, t)}{P(s)P(t)}$$ حيث $P(s, t)$ هي احتمالية تكرار كلمة المصدر $s$ وكلمة الهدف $t$ معًا في جمل مترابطة، و $P(s)$، $P(t)$ هما احتمالاتهما الهامشية.

8. النتائج التجريبية وتحليل البيانات

بينما لا تقدم ملفات PDF نتائج تجريبية محددة، فإن النطاق الموصوف يشير إلى إمكانات كبيرة. للسياق، أظهر البحث باستخدام مجموعات نصوص أوروبية مماثلة (مثل JRC-Acquis) تحسينات كبيرة في جودة SMT للغات الاتحاد الأوروبي. على سبيل المثال، يلاحظ Koehn & Knowles (2017) في "ستة تحديات للترجمة الآلية العصبية" أن توفر مجموعات نصوص متوازية كبيرة مثل Europarl و Acquis هو عامل رئيسي يمكّن من NMT تنافسية للغات الأوروبية.

وصف الرسم البياني (مستنتج): سيوضح مخطط شريطي افتراضي بعنوان "نمو أزواج الجمل في DGT-TM (إصدار 2007 مقابل إصدار 2011)" شريطين لزوج لغوي عينة (مثل الإنجليزية-الفرنسية). سيكون شريط 2007 بارتفاع معين (يمثل الحجم الأولي). سيكون شريط 2011 أطول بالضبط مرتين، مما يؤكد بصريًا ادعاء "أكبر بمرتين". يمكن أن يُظهر رسم بياني خطي ثانوي العدد التراكمي لأزواج الجمل على مر السنين 2004-2010، موضحًا التدفق المستقر للوثائق الذي شكل إصدار 2011.

الاستنتاج الإحصائي الرئيسي هو مضاعفة حجم البيانات بين الإصدارات. في التعلم الآلي، وخاصة للنماذج العصبية الجائعة للبيانات، تكون هذه الزيادة في الحجم غير خطية في القيمة. يمكنها نقل زوج لغوي من كونه "محدود الموارد" إلى "متوسط الموارد"، مما يحسن محتملًا مقاييس جودة الترجمة (مثل درجة BLEU) بعدة نقاط، كما لوحظ في الدراسات حول قوانين تحجيم البيانات لـ NMT.

9. إطار التحليل: مثال لحالة استخدام

السيناريو: تريد شركة ناشئة في تكنولوجيا اللغة بناء أداة متخصصة لمراقبة إعلانات اللوائح الأوروبية عبر اللغات.

تطبيق الإطار (بدون كود):

تحليل المشكلة: المهمة الأساسية هي استرجاع المعلومات عبر اللغات (CLIR) والتصنيف في المجال القانوني/التنظيمي.
تعيين الموارد:
- DGT-TM: تُستخدم كمجموعة نصوص متوازية لتدريب نموذج تضمين ثنائي اللغة متخصص في المجال (مثل استخدام VecMap أو MUSE) للإنجليزية والفرنسية. هذا يخلق فضاء متجهيًا حيث تكون المصطلحات التنظيمية المتشابهة دلاليًا عبر اللغات مترابطة بشكل وثيق.
- EuroVoc (عبر JEX): يُستخدم كمخطط التصنيف الهدف. يتم وسم المستندات بأوصاف EuroVoc ذات الصلة.
- IATE: يُستخدم كقاموس تحقق للتحقق من جودة محاذاة المصطلحات المستفادة من DGT-TM.
تدفق العملية:
1. تدريب تضمينات الكلمات عبر اللغات على DGT-TM.
2. لمستند تنظيمي فرنسي جديد، تحويله إلى متجه مستند باستخدام التضمينات الفرنسية.
3. إسقاط هذا المتجه في فضاء التضمين الإنجليزي باستخدام المحاذاة المستفادة في الخطوة 1.
4. مقارنة المتجه المسقط بقاعدة بيانات للمستندات الإنجليزية المسبقة التجهيز (المصنفة بـ EuroVoc عبر JEX) للعثور على لوائح الاتحاد الأوروبي الأكثر تشابهًا دلاليًا.
5. تعيين أوصاف EuroVoc ذات الصلة من المستندات الإنجليزية المطابقة للمستند الفرنسي الجديد.
النتيجة: يمكن للشركة الناشئة الآن تصنيف وربط النصوص التنظيمية الجديدة بأي لغة مشمولة تلقائيًا بمجموعة النصوص متعددة اللغات الحالية، مما يمكن من المراقبة والتحليل الفعالين.

يوضح هذا المثال كيف تعمل DGT-TM كـ "الغراء" الحاسم أو بيانات التدريب التي تمكن من دمج الموارد الأوروبية الأخرى (EuroVoc، IATE) في تطبيق وظيفي متخصص في المجال.

10. التطبيقات المستقبلية واتجاهات التطوير

يشير مسار DGT-TM نحو عدة تطورات مستقبلية رئيسية:

أساس لنماذج اللغة الكبيرة (LLMs): DGT-TM مثالية للتدريب المسبق أو الضبط الدقيق لنماذج اللغة الكبيرة متعددة اللغات (مثل BERT أو XLM-R) خصيصًا للمجالات القانونية والإدارية، مما يخلق "نماذج GPT تنظيمية" متخصصة.
ذاكرة ترجمة فورية كخدمة (TMaaS): مع التحديثات السنوية، يمكن للمفوضية الأوروبية تقديم واجهة برمجة تطبيقات حية حيث يتم استخلاق اقتراحات الترجمة من DGT-TM بأكمله المتزايد باستمرار، مما يفيد المترجمين المستقلين والوكالات الصغيرة على مستوى العالم.
كشف التحيز ومراجعة الإنصاف: يمكن تحليل المجموعة النصية، كسجل للتواصل الرسمي للاتحاد الأوروبي، لمراجعة التحيز اللغوي، وتطور المصطلحات، والتمثيل عبر اللغات ومجالات السياسة.
تطبيقات متعددة الوسائط محسنة: يمكن ربط الإصدارات المستقبلية ببيانات مفتوحة أخرى، مثل الخطب العامة (فيديو/صوت) أو النصوص القانونية المنسقة (ملفات PDF ذات هيكل)، مما يمكن من البحث في الترجمة متعددة الوسائط وفهم المستندات.
معيار للتقييم: يمكن أن تصبح DGT-TM بيئة اختبار قياسية لتقييم متانة أنظمة الترجمة الآلية التجارية على النص الرسمي والحساس قانونيًا، متجاوزة معايير التقييم للمجال العام.

يُحول الالتزام بالإصدارات السنوية DGT-TM من لقطة ثابتة إلى مجموعة بيانات ديناميكية طولية، مما يفتح آفاقًا بحثية جديدة في تتبع تغير اللغة وتأثير السياسة بمرور الوقت.

11. المراجع

Steinberger, R., Eisele, A., Klocek, S., Pilos, S., & Schlüter, P. (Year). DGT-TM: A Freely Available Translation Memory in 22 Languages. European Commission.
Steinberger, R., Pouliquen, B., Widiger, A., Ignat, C., Erjavec, T., Tufiș, D., & Varga, D. (2006). The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'06).
Koehn, P., & Knowles, R. (2017). Six Challenges for Neural Machine Translation. Proceedings of the First Workshop on Neural Machine Translation. Association for Computational Linguistics.
European Commission, Directorate-General for Translation. (2008). Translating for a Multilingual Community. Publications Office of the European Union.
Directive 2003/98/EC of the European Parliament and of the Council on the re-use of public sector information. Official Journal of the European Union, L 345.
Conneau, A., et al. (2020). Unsupervised Cross-lingual Representation Learning at Scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL). (مرجع لنموذج XLM-R، ذو صلة بتطبيقات LLM المستقبلية).
ACL Anthology. (n.d.). A digital archive of research papers in computational linguistics. Retrieved from https://www.aclweb.org/anthology/ (مرجع عام للسياق البحثي في معالجة اللغات الطبيعية).