DGT-TM: یک حافظه ترجمه بزرگ‌مقیاس چندزبانه از کمیسیون اروپا

۲۲ زبان

زبان‌های رسمی اتحادیه اروپا تحت پوشش

۲۳۱ جفت

جفت‌های زبانی ترجمه منحصربه‌فرد

رشد ۲ برابری

افزایش اندازه از انتشار ۲۰۰۷ تا ۲۰۱۱

به‌روزرسانی سالانه

برنامه زمان‌بندی انتشار پیش‌بینیشده

1. مقدمه و انگیزه

کمیسیون اروپا (EC) از طریق اداره کل ترجمه خود (DGT) و مرکز تحقیقات مشترک (JRC)، با ایجاد DGT-TM (حافظه ترجمه)، سابقه‌ای در داده‌های چندزبانه آزاد ایجاد کرده است. این منبع بخشی از یک ابتکار گسترده‌تر برای انتشار دارایی‌های زبانی بزرگ‌مقیاس، در پیوند با پیکره موازی JRC-Acquis است. انتشار سال ۲۰۱۱ DGT-TM شامل اسناد سال‌های ۲۰۰۴ تا ۲۰۱۰ بوده و دو برابر نسخه سال ۲۰۰۷ است. این تلاش توسط اصل بنیادین چندزبانگی اتحادیه اروپا هدایت می‌شود که هدف آن ترویج تنوع فرهنگی، شفافیت و دسترسی دموکراتیک به اطلاعات برای همه شهروندان اتحادیه اروپا به زبان مادریشان است.

این انتشار با دستورالعمل ۲۰۰۳/۹۸/EC در مورد استفاده مجدد از اطلاعات بخش عمومی همسو است و چنین داده‌هایی را به عنوان ماده خام ارزشمندی برای نوآوری دیجیتال و خدمات فرامرزی به رسمیت می‌شناسد.

2. منبع DGT-TM

DGT-TM مجموعه‌ای از جملات و ترجمه‌های انسانی حرفه‌ای آنها در ۲۲ زبان رسمی اتحادیه اروپا است.

2.1. منبع داده و ترکیب

داده‌های اصلی از گردش کار ترجمه اداره کل ترجمه کمیسیون اروپا (DGT) سرچشمه می‌گیرد. این داده‌ها شامل اسناد قانونی، سیاستی و اداری معتبر است که ترجمه‌های باکیفیت و حوزه‌محور را تضمین می‌کند. حافظه به صورت جفت جملات هم‌تراز ساختار یافته است که فرمت استاندارد تبادل حافظه ترجمه (TMX) است.

2.2. تاریخچه انتشار و آمار

اولین انتشار عمده در سال ۲۰۰۷ بود. انتشار سال ۲۰۱۱ (DGT-TM Release 2011) شامل داده‌های تا پایان سال ۲۰۱۰ بوده و نشان‌دهنده گسترش قابل توجهی است. کمیسیون اروپا قصد دارد از این پس انتشارات سالانه انجام دهد و یک منبع زنده و در حال رشد ایجاد کند. مقیاس آن تمام ۲۳۱ جفت ترجمه جهت‌دار ممکن بین ۲۲ زبان را در بر می‌گیرد.

3. کاربردها و موارد استفاده

3.1. برای متخصصان ترجمه

در درجه اول، DGT-TM با نرم‌افزار حافظه ترجمه استفاده می‌شود تا با پیشنهاد ترجمه‌های قبلی جملات یکسان یا مشابه، بهره‌وری مترجمان را افزایش داده و ثبات اصطلاح‌شناسی را تضمین کند.

3.2. برای پژوهش فناوری زبان

این منبع برای تحقیق و توسعه در زمینه‌های زیر بسیار ارزشمند است:

ترجمه ماشینی آماری (SMT): به عنوان داده آموزشی برای ساخت و ارزیابی سیستم‌های SMT برای جفت زبان‌های کم‌منبع.
استخراج اصطلاحات: برای استخراج فهرست‌های اصطلاحات دوزبانه و چندزبانه حوزه‌محور.
تشخیص موجودیت‌های نام‌دار (NER): برای توسعه و ارزیابی ابزارهای NER بین‌زبانه.
طبقه‌بندی و خوشه‌بندی متن چندزبانه: به عنوان یک مجموعه داده برچسب‌خورده برای طبقه‌بندی اسناد بین‌زبانه.

4. بافت فنی و حقوقی

این انتشار در چارچوب دستورالعمل ۲۰۰۳/۹۸/EC عمل می‌کند که استفاده مجدد از اطلاعات بخش عمومی را برای تقویت نوآوری و یک بازار واحد دیجیتال رقابتی تشویق می‌کند. داده‌ها به صورت رایگان در دسترس قرار گرفته‌اند که موانع ورود برای پژوهشگران و شرکت‌های کوچک و متوسط در بخش فناوری زبان را کاهش می‌دهد.

5. منابع مرتبط اتحادیه اروپا

DGT-TM بخشی از اکوسیستم بزرگ‌تری از منابع چندزبانه آزاد از نهادهای اتحادیه اروپا است:

EUR-Lex: نقطه دسترسی رایگان به قوانین اتحادیه اروپا به ۲۳ زبان.
IATE: پایگاه داده اصطلاح‌شناسی تعاملی برای اروپا.
EuroVoc: یک اصطلاح‌نامه چندزبانه و چندرشته‌ای.
JRC-Names: یک منبع برای تشخیص و نرمال‌سازی موجودیت‌های نام‌دار.
JEX (JRC EuroVoc Indexer): نرم‌افزاری برای طبقه‌بندی خودکار اسناد چندزبانه با استفاده از EuroVoc.

این منابع در مجموع بنیانی جامع برای دسترسی و پردازش اطلاعات چندزبانه فراهم می‌کنند.

6. بینش کلیدی و دیدگاه تحلیلی

بینش کلیدی: DGT-TM صرفاً یک مجموعه داده نیست؛ بلکه یک دارایی ژئوپلیتیکی استراتژیک است. کمیسیون اروپا از موقعیت منحصربه‌فرد خود به عنوان بزرگ‌ترین کارفرمای مترجمان حرفه‌ای جهان استفاده می‌کند تا جامع‌ترین پیکره چندزبانه موجود در حوزه عمومی را بسازد. این حرکت هوشمندانه یک ضرورت بوروکراتیک—ترجمه—را به یک مزیت رقابتی برای اقتصاد دیجیتال و پژوهشی اتحادیه اروپا تبدیل می‌کند. این اقدام مستقیماً با سلطه مجموعه‌داده‌های انحصاری، که اغلب انگلیسی‌محور هستند و توسط شرکت‌های بزرگ فناوری آمریکایی نگهداری می‌شوند، مقابله می‌کند؛ همان‌طور که در منابعی مانند ACL Anthology در مورد کمبود داده برای NLP بحث شده است.

جریان منطقی: منطق آن بی‌عیب است: ۱) قانون اتحادیه اروپا چندزبانگی را الزامی می‌کند، ۲) این امر حجم عظیمی از داده‌های ترجمه باکیفیت تولید می‌کند، ۳) با متن‌باز کردن این داده‌ها، کمیسیون اروپا نوآوری خارجی در فناوری زبان (LT) را تقویت می‌کند، ۴) فناوری زبان بهبودیافته به نوبه خود هزینه آینده را کاهش داده و کارایی فرآیندهای ترجمه‌ای که داده را تولید کردند، افزایش می‌دهد. این یک چرخه مثبت است که برای تحکیم نقش اتحادیه اروپا به عنوان قطب جهانی هوش مصنوعی چندزبانه طراحی شده است.

نقاط قوت و ضعف: نقطه قوت آن مقیاس بی‌نظیر، کیفیت و وضوح حقوقی آن است. برخلاف پیکره‌های استخراج‌شده از وب، این داده‌ها پاک، حرفه‌ای ترجمه شده و با حقوق استفاده روشن ارائه می‌شوند. با این حال، ضعف اصلی آن سوگیری حوزه‌ای است. این پیکره به شدت به سمت گفتمان حقوقی، اداری و سیاسی متمایل است. این امر کاربرد مستقیم آن را برای آموزش سیستم‌های ترجمه ماشینی قوی و همه‌منظوره برای زبان محاوره‌ای یا تجاری محدود می‌کند؛ شکافی که هنگام مقایسه ژانر آن با داده‌های حوزه‌مختلط استفاده‌شده در مدل‌هایی مانند NMT گوگل برجسته می‌شود. این یک معدن طلا برای NLP نهادی است، اما یک راه‌حل یک‌اندازه‌برای-همه نیست.

بینش‌های عملی: برای پژوهشگران، اولویت باید انطباق حوزه‌ای باشد. از DGT-TM به عنوان یک پیکره بذر باکیفیت استفاده کنید و تکنیک‌هایی مانند تنظیم دقیق یا ترجمه معکوس را با داده‌های پرسر و صداتر و گسترده‌تر برای ساخت مدل‌های همه‌کاره‌تر اعمال کنید. برای سیاست‌گذاران خارج از اتحادیه اروپا، این یک الگو است: انتشار آزاد حافظه‌های ترجمه دولتی را اجباری کنید. برای کارآفرینان، فرصت در ساخت ابزارهای SaaS تخصصی برای جستجو و تحلیل چندزبانه متمرکز بر حقوقی یا انطباق نهفته است که مستقیماً از این نقطه قوت حوزه‌محور بهره می‌برد، نه اینکه با سوگیری آن بجنگد.

7. جزئیات فنی و چارچوب ریاضی

ارزش اصلی DGT-TM در هم‌ترازی موازی جملات آن نهفته است. به طور رسمی، برای یک سند $D$ که از زبان مبدأ $L_s$ به زبان مقصد $L_t$ ترجمه شده است، حافظه ترجمه شامل مجموعه‌ای از جفت‌های هم‌تراز $\{(s_1, t_1), (s_2, t_2), ..., (s_n, t_n)\}$ است، که در آن $s_i$ یک جمله مبدأ و $t_i$ ترجمه انسانی تولیدشده آن است.

در ترجمه ماشینی آماری، از چنین پیکره‌ای برای تخمین پارامترهای مدل ترجمه استفاده می‌شود. یک جزء اساسی، احتمال ترجمه عبارت $\phi(\bar{t}|\bar{s})$ است که از فرکانس‌های نسبی درون داده‌های هم‌تراز تخمین زده می‌شود: $$\phi(\bar{t}|\bar{s}) = \frac{\text{count}(\bar{s}, \bar{t})}{\sum_{\bar{t}'}\text{count}(\bar{s}, \bar{t}')}$$ که در آن $\bar{s}$ و $\bar{t}$ دنباله‌های پیوسته‌ای از کلمات (عبارات) هستند که از جفت جملات هم‌تراز استخراج شده‌اند. اندازه عظیم DGT-TM امکان تخمین قابل اطمینان‌تر این احتمالات را فراهم می‌کند، به ویژه برای عبارات طولانی‌تر و جفت زبان‌های با فرکانس پایین.

برای استخراج اصطلاحات دوزبانه، معیارهایی مانند اطلاعات متقابل نقطه‌ای (PMI) را می‌توان در سراسر پیکره هم‌تراز محاسبه کرد تا ترجمه‌های احتمالی اصطلاحات شناسایی شوند: $$\text{PMI}(s, t) = \log_2 \frac{P(s, t)}{P(s)P(t)}$$ که در آن $P(s, t)$ احتمال هم‌رویید کلمه مبدأ $s$ و کلمه مقصد $t$ در جملات هم‌تراز است، و $P(s)$، $P(t)$ احتمالات حاشیه‌ای آنها هستند.

8. نتایج آزمایشی و تحلیل داده

در حالی که PDF نتایج آزمایشی خاصی ارائه نمی‌دهد، مقیاس توصیف‌شده نشان‌دهنده پتانسیل قابل توجهی است. برای درک بهتر، پژوهش‌های استفاده‌کننده از پیکره‌های مشابه اتحادیه اروپا (مانند JRC-Acquis) بهبودهای قابل توجهی در کیفیت SMT برای زبان‌های اتحادیه اروپا نشان داده‌اند. به عنوان مثال، Koehn & Knowles (2017) در مقاله "شش چالش برای ترجمه ماشینی عصبی" خاطرنشان می‌کنند که در دسترس بودن پیکره‌های موازی بزرگ مانند Europarl و Acquis یک عامل کلیدی برای امکان‌پذیر کردن NMT رقابتی برای زبان‌های اروپایی است.

توضیح نمودار (استنباطی): یک نمودار میله‌ای فرضی با عنوان "رشد جفت جملات DGT-TM (انتشار ۲۰۰۷ در مقابل ۲۰۱۱)" دو میله برای یک جفت زبانی نمونه (مثلاً انگلیسی-فرانسوی) نشان می‌دهد. میله سال ۲۰۰۷ ارتفاع مشخصی (نمایانگر حجم اولیه) خواهد داشت. میله سال ۲۰۱۱ دقیقاً دو برابر بلندتر خواهد بود و ادعای "دو برابر بزرگ‌تر" را به صورت بصری تأیید می‌کند. یک نمودار خطی ثانویه می‌تواند تعداد تجمعی جفت جملات در طول سال‌های ۲۰۰۴ تا ۲۰۱۰ را نشان دهد و جذب پیوسته اسنادی را که انتشار ۲۰۱۱ را تشکیل دادند، به تصویر بکشد.

نکته آماری کلیدی دو برابر شدن حجم داده بین انتشارات است. در یادگیری ماشین، به ویژه برای مدل‌های عصبی گرسنه داده، این افزایش مقیاس از نظر ارزش غیرخطی است. این می‌تواند یک جفت زبان را از حالت "کم‌منبع" به "منبع متوسط" منتقل کند و به طور بالقوه معیارهای کیفیت ترجمه (مانند نمره BLEU) را چندین امتیاز بهبود بخشد، همان‌طور که در مطالعات مربوط به قوانین مقیاس‌بندی داده برای NMT مشاهده شده است.

9. چارچوب تحلیل: مثالی از یک مورد استفاده

سناریو: یک استارت‌آپ فناوری زبان می‌خواهد یک ابزار تخصصی برای نظارت بر اعلامیه‌های مقرراتی اتحادیه اروپا در زبان‌های مختلف بسازد.

کاربرد چارچوب (بدون کد):

تجزیه مسئله: وظیفه اصلی، بازیابی اطلاعات بین‌زبانه (CLIR) و طبقه‌بندی در حوزه حقوقی/مقرراتی است.
نگاشت منابع:
- DGT-TM: به عنوان پیکره موازی برای آموزش یک مدل جاسازی دوزبانه حوزه‌محور (مثلاً با استفاده از VecMap یا MUSE) برای انگلیسی و فرانسوی استفاده می‌شود. این یک فضای برداری ایجاد می‌کند که در آن اصطلاحات مقرراتی معنایی مشابه در زبان‌های مختلف به هم نزدیک هستند.
- EuroVoc (از طریق JEX): به عنوان طرح طبقه‌بندی هدف استفاده می‌شود. اسناد با توصیفگرهای مرتبط EuroVoc برچسب‌گذاری می‌شوند.
- IATE: به عنوان یک فرهنگ لغت اعتبارسنجی برای بررسی کیفیت هم‌ترازی اصطلاحات آموخته‌شده از DGT-TM استفاده می‌شود.
جریان فرآیند:
1. جاسازی‌های کلمات بین‌زبانه را روی DGT-TM آموزش دهید.
2. برای یک سند مقرراتی فرانسوی جدید، با استفاده از جاسازی‌های فرانسوی آن را به یک بردار سند تبدیل کنید.
3. این بردار را با استفاده از هم‌ترازی آموخته‌شده در مرحله ۱ به فضای جاسازی انگلیسی تصویر کنید.
4. بردار تصویرشده را با پایگاه‌داده‌ای از اسناد انگلیسی از پیش برداریشده (طبقه‌بندی‌شده با EuroVoc از طریق JEX) مقایسه کنید تا مقررات اتحادیه اروپایی که از نظر معنایی بیشترین شباهت را دارند، پیدا کنید.
5. توصیفگرهای EuroVoc مرتبط از اسناد انگلیسی مطابق‌شده را به سند فرانسوی جدید اختصاص دهید.
نتیجه: استارت‌آپ اکنون می‌تواند به طور خودکار متون مقرراتی جدید را به هر زبان تحت پوشش طبقه‌بندی کرده و به پیکره چندزبانه موجود پیوند دهد و امکان نظارت و تحلیل کارآمد را فراهم کند.

این مثال نشان می‌دهد که چگونه DGT-TM به عنوان "چسب" حیاتی یا داده آموزشی عمل می‌کند که امکان ادغام سایر منابع اتحادیه اروپا (EuroVoc, IATE) را در یک برنامه کاربردی حوزه‌محور و عملی فراهم می‌کند.

10. کاربردهای آتی و جهت‌های توسعه

مسیر DGT-TM به سمت چندین توسعه کلیدی آینده اشاره دارد:

بنیانی برای مدل‌های زبانی بزرگ (LLM): DGT-TM برای پیش‌آموزش یا تنظیم دقیق مدل‌های زبانی بزرگ چندزبانه (مانند BERT یا XLM-R) به ویژه برای حوزه‌های حقوقی و اداری ایده‌آل است و می‌تواند "GPTهای مقرراتی" تخصصی ایجاد کند.
حافظه ترجمه بلادرنگ به عنوان سرویس (TMaaS): با به‌روزرسانی‌های سالانه، کمیسیون اروپا می‌تواند یک API زنده ارائه دهد که در آن پیشنهادهای ترجمه از کل DGT-TM در حال رشد و همیشه‌روز استخراج می‌شود و به مترجمان آزاد و آژانس‌های کوچک در سراسر جهان سود می‌رساند.
تشخیص سوگیری و حسابرسی انصاف: این پیکره، به عنوان سابقه‌ای از ارتباطات رسمی اتحادیه اروپا، می‌تواند برای حسابرسی سوگیری زبانی، تکامل اصطلاحات و نمایندگی در زبان‌ها و حوزه‌های سیاستی مختلف تحلیل شود.
کاربردهای چندوجهی پیشرفته: انتشارات آینده می‌توانند با سایر داده‌های آزاد، مانند سخنرانی‌های عمومی (ویدئو/صدا) یا متون حقوقی قالب‌بندی‌شده (PDFهای دارای ساختار) پیوند داده شوند و پژوهش در ترجمه چندوجهی و درک سند را امکان‌پذیر کنند.
استاندارد برای ارزیابی: DGT-TM می‌تواند به یک بستر آزمایش استاندارد برای ارزیابی استحکام سیستم‌های تجاری ترجمه ماشینی روی متن رسمی و حساس از نظر حقوقی تبدیل شود و فراتر از معیارهای ارزیابی حوزه عمومی حرکت کند.

تعهد به انتشارات سالانه، DGT-TM را از یک تصویر ثابت به یک مجموعه داده پویا و طولی تبدیل می‌کند و راه‌های پژوهشی جدیدی را در ردیابی تغییر زبان و تأثیر سیاست در طول زمان باز می‌کند.

11. منابع

Steinberger, R., Eisele, A., Klocek, S., Pilos, S., & Schlüter, P. (Year). DGT-TM: A Freely Available Translation Memory in 22 Languages. European Commission.
Steinberger, R., Pouliquen, B., Widiger, A., Ignat, C., Erjavec, T., Tufiș, D., & Varga, D. (2006). The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'06).
Koehn, P., & Knowles, R. (2017). Six Challenges for Neural Machine Translation. Proceedings of the First Workshop on Neural Machine Translation. Association for Computational Linguistics.
European Commission, Directorate-General for Translation. (2008). Translating for a Multilingual Community. Publications Office of the European Union.
Directive 2003/98/EC of the European Parliament and of the Council on the re-use of public sector information. Official Journal of the European Union, L 345.
Conneau, A., et al. (2020). Unsupervised Cross-lingual Representation Learning at Scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL). (مرجع برای مدل XLM-R، مرتبط با کاربردهای آینده LLM).
ACL Anthology. (n.d.). A digital archive of research papers in computational linguistics. Retrieved from https://www.aclweb.org/anthology/ (مرجع کلی برای بافت پژوهش NLP).