۲۲ زبان
زبانهای رسمی اتحادیه اروپا تحت پوشش
۲۳۱ جفت
جفتهای زبانی ترجمه منحصربهفرد
رشد ۲ برابری
افزایش اندازه از انتشار ۲۰۰۷ تا ۲۰۱۱
بهروزرسانی سالانه
برنامه زمانبندی انتشار پیشبینیشده
1. مقدمه و انگیزه
کمیسیون اروپا (EC) از طریق اداره کل ترجمه خود (DGT) و مرکز تحقیقات مشترک (JRC)، با ایجاد DGT-TM (حافظه ترجمه)، سابقهای در دادههای چندزبانه آزاد ایجاد کرده است. این منبع بخشی از یک ابتکار گستردهتر برای انتشار داراییهای زبانی بزرگمقیاس، در پیوند با پیکره موازی JRC-Acquis است. انتشار سال ۲۰۱۱ DGT-TM شامل اسناد سالهای ۲۰۰۴ تا ۲۰۱۰ بوده و دو برابر نسخه سال ۲۰۰۷ است. این تلاش توسط اصل بنیادین چندزبانگی اتحادیه اروپا هدایت میشود که هدف آن ترویج تنوع فرهنگی، شفافیت و دسترسی دموکراتیک به اطلاعات برای همه شهروندان اتحادیه اروپا به زبان مادریشان است.
این انتشار با دستورالعمل ۲۰۰۳/۹۸/EC در مورد استفاده مجدد از اطلاعات بخش عمومی همسو است و چنین دادههایی را به عنوان ماده خام ارزشمندی برای نوآوری دیجیتال و خدمات فرامرزی به رسمیت میشناسد.
2. منبع DGT-TM
DGT-TM مجموعهای از جملات و ترجمههای انسانی حرفهای آنها در ۲۲ زبان رسمی اتحادیه اروپا است.
2.1. منبع داده و ترکیب
دادههای اصلی از گردش کار ترجمه اداره کل ترجمه کمیسیون اروپا (DGT) سرچشمه میگیرد. این دادهها شامل اسناد قانونی، سیاستی و اداری معتبر است که ترجمههای باکیفیت و حوزهمحور را تضمین میکند. حافظه به صورت جفت جملات همتراز ساختار یافته است که فرمت استاندارد تبادل حافظه ترجمه (TMX) است.
2.2. تاریخچه انتشار و آمار
اولین انتشار عمده در سال ۲۰۰۷ بود. انتشار سال ۲۰۱۱ (DGT-TM Release 2011) شامل دادههای تا پایان سال ۲۰۱۰ بوده و نشاندهنده گسترش قابل توجهی است. کمیسیون اروپا قصد دارد از این پس انتشارات سالانه انجام دهد و یک منبع زنده و در حال رشد ایجاد کند. مقیاس آن تمام ۲۳۱ جفت ترجمه جهتدار ممکن بین ۲۲ زبان را در بر میگیرد.
3. کاربردها و موارد استفاده
3.1. برای متخصصان ترجمه
در درجه اول، DGT-TM با نرمافزار حافظه ترجمه استفاده میشود تا با پیشنهاد ترجمههای قبلی جملات یکسان یا مشابه، بهرهوری مترجمان را افزایش داده و ثبات اصطلاحشناسی را تضمین کند.
3.2. برای پژوهش فناوری زبان
این منبع برای تحقیق و توسعه در زمینههای زیر بسیار ارزشمند است:
- ترجمه ماشینی آماری (SMT): به عنوان داده آموزشی برای ساخت و ارزیابی سیستمهای SMT برای جفت زبانهای کممنبع.
- استخراج اصطلاحات: برای استخراج فهرستهای اصطلاحات دوزبانه و چندزبانه حوزهمحور.
- تشخیص موجودیتهای نامدار (NER): برای توسعه و ارزیابی ابزارهای NER بینزبانه.
- طبقهبندی و خوشهبندی متن چندزبانه: به عنوان یک مجموعه داده برچسبخورده برای طبقهبندی اسناد بینزبانه.
4. بافت فنی و حقوقی
این انتشار در چارچوب دستورالعمل ۲۰۰۳/۹۸/EC عمل میکند که استفاده مجدد از اطلاعات بخش عمومی را برای تقویت نوآوری و یک بازار واحد دیجیتال رقابتی تشویق میکند. دادهها به صورت رایگان در دسترس قرار گرفتهاند که موانع ورود برای پژوهشگران و شرکتهای کوچک و متوسط در بخش فناوری زبان را کاهش میدهد.
5. منابع مرتبط اتحادیه اروپا
DGT-TM بخشی از اکوسیستم بزرگتری از منابع چندزبانه آزاد از نهادهای اتحادیه اروپا است:
- EUR-Lex: نقطه دسترسی رایگان به قوانین اتحادیه اروپا به ۲۳ زبان.
- IATE: پایگاه داده اصطلاحشناسی تعاملی برای اروپا.
- EuroVoc: یک اصطلاحنامه چندزبانه و چندرشتهای.
- JRC-Names: یک منبع برای تشخیص و نرمالسازی موجودیتهای نامدار.
- JEX (JRC EuroVoc Indexer): نرمافزاری برای طبقهبندی خودکار اسناد چندزبانه با استفاده از EuroVoc.
6. بینش کلیدی و دیدگاه تحلیلی
بینش کلیدی: DGT-TM صرفاً یک مجموعه داده نیست؛ بلکه یک دارایی ژئوپلیتیکی استراتژیک است. کمیسیون اروپا از موقعیت منحصربهفرد خود به عنوان بزرگترین کارفرمای مترجمان حرفهای جهان استفاده میکند تا جامعترین پیکره چندزبانه موجود در حوزه عمومی را بسازد. این حرکت هوشمندانه یک ضرورت بوروکراتیک—ترجمه—را به یک مزیت رقابتی برای اقتصاد دیجیتال و پژوهشی اتحادیه اروپا تبدیل میکند. این اقدام مستقیماً با سلطه مجموعهدادههای انحصاری، که اغلب انگلیسیمحور هستند و توسط شرکتهای بزرگ فناوری آمریکایی نگهداری میشوند، مقابله میکند؛ همانطور که در منابعی مانند ACL Anthology در مورد کمبود داده برای NLP بحث شده است.
جریان منطقی: منطق آن بیعیب است: ۱) قانون اتحادیه اروپا چندزبانگی را الزامی میکند، ۲) این امر حجم عظیمی از دادههای ترجمه باکیفیت تولید میکند، ۳) با متنباز کردن این دادهها، کمیسیون اروپا نوآوری خارجی در فناوری زبان (LT) را تقویت میکند، ۴) فناوری زبان بهبودیافته به نوبه خود هزینه آینده را کاهش داده و کارایی فرآیندهای ترجمهای که داده را تولید کردند، افزایش میدهد. این یک چرخه مثبت است که برای تحکیم نقش اتحادیه اروپا به عنوان قطب جهانی هوش مصنوعی چندزبانه طراحی شده است.
نقاط قوت و ضعف: نقطه قوت آن مقیاس بینظیر، کیفیت و وضوح حقوقی آن است. برخلاف پیکرههای استخراجشده از وب، این دادهها پاک، حرفهای ترجمه شده و با حقوق استفاده روشن ارائه میشوند. با این حال، ضعف اصلی آن سوگیری حوزهای است. این پیکره به شدت به سمت گفتمان حقوقی، اداری و سیاسی متمایل است. این امر کاربرد مستقیم آن را برای آموزش سیستمهای ترجمه ماشینی قوی و همهمنظوره برای زبان محاورهای یا تجاری محدود میکند؛ شکافی که هنگام مقایسه ژانر آن با دادههای حوزهمختلط استفادهشده در مدلهایی مانند NMT گوگل برجسته میشود. این یک معدن طلا برای NLP نهادی است، اما یک راهحل یکاندازهبرای-همه نیست.
بینشهای عملی: برای پژوهشگران، اولویت باید انطباق حوزهای باشد. از DGT-TM به عنوان یک پیکره بذر باکیفیت استفاده کنید و تکنیکهایی مانند تنظیم دقیق یا ترجمه معکوس را با دادههای پرسر و صداتر و گستردهتر برای ساخت مدلهای همهکارهتر اعمال کنید. برای سیاستگذاران خارج از اتحادیه اروپا، این یک الگو است: انتشار آزاد حافظههای ترجمه دولتی را اجباری کنید. برای کارآفرینان، فرصت در ساخت ابزارهای SaaS تخصصی برای جستجو و تحلیل چندزبانه متمرکز بر حقوقی یا انطباق نهفته است که مستقیماً از این نقطه قوت حوزهمحور بهره میبرد، نه اینکه با سوگیری آن بجنگد.
7. جزئیات فنی و چارچوب ریاضی
ارزش اصلی DGT-TM در همترازی موازی جملات آن نهفته است. به طور رسمی، برای یک سند $D$ که از زبان مبدأ $L_s$ به زبان مقصد $L_t$ ترجمه شده است، حافظه ترجمه شامل مجموعهای از جفتهای همتراز $\{(s_1, t_1), (s_2, t_2), ..., (s_n, t_n)\}$ است، که در آن $s_i$ یک جمله مبدأ و $t_i$ ترجمه انسانی تولیدشده آن است.
در ترجمه ماشینی آماری، از چنین پیکرهای برای تخمین پارامترهای مدل ترجمه استفاده میشود. یک جزء اساسی، احتمال ترجمه عبارت $\phi(\bar{t}|\bar{s})$ است که از فرکانسهای نسبی درون دادههای همتراز تخمین زده میشود: $$\phi(\bar{t}|\bar{s}) = \frac{\text{count}(\bar{s}, \bar{t})}{\sum_{\bar{t}'}\text{count}(\bar{s}, \bar{t}')}$$ که در آن $\bar{s}$ و $\bar{t}$ دنبالههای پیوستهای از کلمات (عبارات) هستند که از جفت جملات همتراز استخراج شدهاند. اندازه عظیم DGT-TM امکان تخمین قابل اطمینانتر این احتمالات را فراهم میکند، به ویژه برای عبارات طولانیتر و جفت زبانهای با فرکانس پایین.
برای استخراج اصطلاحات دوزبانه، معیارهایی مانند اطلاعات متقابل نقطهای (PMI) را میتوان در سراسر پیکره همتراز محاسبه کرد تا ترجمههای احتمالی اصطلاحات شناسایی شوند: $$\text{PMI}(s, t) = \log_2 \frac{P(s, t)}{P(s)P(t)}$$ که در آن $P(s, t)$ احتمال همرویید کلمه مبدأ $s$ و کلمه مقصد $t$ در جملات همتراز است، و $P(s)$، $P(t)$ احتمالات حاشیهای آنها هستند.
8. نتایج آزمایشی و تحلیل داده
در حالی که PDF نتایج آزمایشی خاصی ارائه نمیدهد، مقیاس توصیفشده نشاندهنده پتانسیل قابل توجهی است. برای درک بهتر، پژوهشهای استفادهکننده از پیکرههای مشابه اتحادیه اروپا (مانند JRC-Acquis) بهبودهای قابل توجهی در کیفیت SMT برای زبانهای اتحادیه اروپا نشان دادهاند. به عنوان مثال، Koehn & Knowles (2017) در مقاله "شش چالش برای ترجمه ماشینی عصبی" خاطرنشان میکنند که در دسترس بودن پیکرههای موازی بزرگ مانند Europarl و Acquis یک عامل کلیدی برای امکانپذیر کردن NMT رقابتی برای زبانهای اروپایی است.
توضیح نمودار (استنباطی): یک نمودار میلهای فرضی با عنوان "رشد جفت جملات DGT-TM (انتشار ۲۰۰۷ در مقابل ۲۰۱۱)" دو میله برای یک جفت زبانی نمونه (مثلاً انگلیسی-فرانسوی) نشان میدهد. میله سال ۲۰۰۷ ارتفاع مشخصی (نمایانگر حجم اولیه) خواهد داشت. میله سال ۲۰۱۱ دقیقاً دو برابر بلندتر خواهد بود و ادعای "دو برابر بزرگتر" را به صورت بصری تأیید میکند. یک نمودار خطی ثانویه میتواند تعداد تجمعی جفت جملات در طول سالهای ۲۰۰۴ تا ۲۰۱۰ را نشان دهد و جذب پیوسته اسنادی را که انتشار ۲۰۱۱ را تشکیل دادند، به تصویر بکشد.
نکته آماری کلیدی دو برابر شدن حجم داده بین انتشارات است. در یادگیری ماشین، به ویژه برای مدلهای عصبی گرسنه داده، این افزایش مقیاس از نظر ارزش غیرخطی است. این میتواند یک جفت زبان را از حالت "کممنبع" به "منبع متوسط" منتقل کند و به طور بالقوه معیارهای کیفیت ترجمه (مانند نمره BLEU) را چندین امتیاز بهبود بخشد، همانطور که در مطالعات مربوط به قوانین مقیاسبندی داده برای NMT مشاهده شده است.
9. چارچوب تحلیل: مثالی از یک مورد استفاده
سناریو: یک استارتآپ فناوری زبان میخواهد یک ابزار تخصصی برای نظارت بر اعلامیههای مقرراتی اتحادیه اروپا در زبانهای مختلف بسازد.
کاربرد چارچوب (بدون کد):
- تجزیه مسئله: وظیفه اصلی، بازیابی اطلاعات بینزبانه (CLIR) و طبقهبندی در حوزه حقوقی/مقرراتی است.
- نگاشت منابع:
- DGT-TM: به عنوان پیکره موازی برای آموزش یک مدل جاسازی دوزبانه حوزهمحور (مثلاً با استفاده از VecMap یا MUSE) برای انگلیسی و فرانسوی استفاده میشود. این یک فضای برداری ایجاد میکند که در آن اصطلاحات مقرراتی معنایی مشابه در زبانهای مختلف به هم نزدیک هستند.
- EuroVoc (از طریق JEX): به عنوان طرح طبقهبندی هدف استفاده میشود. اسناد با توصیفگرهای مرتبط EuroVoc برچسبگذاری میشوند.
- IATE: به عنوان یک فرهنگ لغت اعتبارسنجی برای بررسی کیفیت همترازی اصطلاحات آموختهشده از DGT-TM استفاده میشود.
- جریان فرآیند:
- جاسازیهای کلمات بینزبانه را روی DGT-TM آموزش دهید.
- برای یک سند مقرراتی فرانسوی جدید، با استفاده از جاسازیهای فرانسوی آن را به یک بردار سند تبدیل کنید.
- این بردار را با استفاده از همترازی آموختهشده در مرحله ۱ به فضای جاسازی انگلیسی تصویر کنید.
- بردار تصویرشده را با پایگاهدادهای از اسناد انگلیسی از پیش برداریشده (طبقهبندیشده با EuroVoc از طریق JEX) مقایسه کنید تا مقررات اتحادیه اروپایی که از نظر معنایی بیشترین شباهت را دارند، پیدا کنید.
- توصیفگرهای EuroVoc مرتبط از اسناد انگلیسی مطابقشده را به سند فرانسوی جدید اختصاص دهید.
- نتیجه: استارتآپ اکنون میتواند به طور خودکار متون مقرراتی جدید را به هر زبان تحت پوشش طبقهبندی کرده و به پیکره چندزبانه موجود پیوند دهد و امکان نظارت و تحلیل کارآمد را فراهم کند.
10. کاربردهای آتی و جهتهای توسعه
مسیر DGT-TM به سمت چندین توسعه کلیدی آینده اشاره دارد:
- بنیانی برای مدلهای زبانی بزرگ (LLM): DGT-TM برای پیشآموزش یا تنظیم دقیق مدلهای زبانی بزرگ چندزبانه (مانند BERT یا XLM-R) به ویژه برای حوزههای حقوقی و اداری ایدهآل است و میتواند "GPTهای مقرراتی" تخصصی ایجاد کند.
- حافظه ترجمه بلادرنگ به عنوان سرویس (TMaaS): با بهروزرسانیهای سالانه، کمیسیون اروپا میتواند یک API زنده ارائه دهد که در آن پیشنهادهای ترجمه از کل DGT-TM در حال رشد و همیشهروز استخراج میشود و به مترجمان آزاد و آژانسهای کوچک در سراسر جهان سود میرساند.
- تشخیص سوگیری و حسابرسی انصاف: این پیکره، به عنوان سابقهای از ارتباطات رسمی اتحادیه اروپا، میتواند برای حسابرسی سوگیری زبانی، تکامل اصطلاحات و نمایندگی در زبانها و حوزههای سیاستی مختلف تحلیل شود.
- کاربردهای چندوجهی پیشرفته: انتشارات آینده میتوانند با سایر دادههای آزاد، مانند سخنرانیهای عمومی (ویدئو/صدا) یا متون حقوقی قالببندیشده (PDFهای دارای ساختار) پیوند داده شوند و پژوهش در ترجمه چندوجهی و درک سند را امکانپذیر کنند.
- استاندارد برای ارزیابی: DGT-TM میتواند به یک بستر آزمایش استاندارد برای ارزیابی استحکام سیستمهای تجاری ترجمه ماشینی روی متن رسمی و حساس از نظر حقوقی تبدیل شود و فراتر از معیارهای ارزیابی حوزه عمومی حرکت کند.
تعهد به انتشارات سالانه، DGT-TM را از یک تصویر ثابت به یک مجموعه داده پویا و طولی تبدیل میکند و راههای پژوهشی جدیدی را در ردیابی تغییر زبان و تأثیر سیاست در طول زمان باز میکند.
11. منابع
- Steinberger, R., Eisele, A., Klocek, S., Pilos, S., & Schlüter, P. (Year). DGT-TM: A Freely Available Translation Memory in 22 Languages. European Commission.
- Steinberger, R., Pouliquen, B., Widiger, A., Ignat, C., Erjavec, T., Tufiș, D., & Varga, D. (2006). The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'06).
- Koehn, P., & Knowles, R. (2017). Six Challenges for Neural Machine Translation. Proceedings of the First Workshop on Neural Machine Translation. Association for Computational Linguistics.
- European Commission, Directorate-General for Translation. (2008). Translating for a Multilingual Community. Publications Office of the European Union.
- Directive 2003/98/EC of the European Parliament and of the Council on the re-use of public sector information. Official Journal of the European Union, L 345.
- Conneau, A., et al. (2020). Unsupervised Cross-lingual Representation Learning at Scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL). (مرجع برای مدل XLM-R، مرتبط با کاربردهای آینده LLM).
- ACL Anthology. (n.d.). A digital archive of research papers in computational linguistics. Retrieved from https://www.aclweb.org/anthology/ (مرجع کلی برای بافت پژوهش NLP).