DGT-TM: Kumbukumbu ya Tafsiri ya Kwingi na Kubwa Kutoka Tume ya Ulaya

Lugha 22

Lugha rasmi za EU zilizofunikwa

Jozi 231

Jozi za kipekee za tafsiri za lugha

Ukuaji wa Mara 2

Kuongezeka kwa ukubwa kutoka toleo la 2007 hadi 2011

Sasisho za Kila Mwaka

Ratiba iliyopangwa ya kutolewa

1. Utangulizi na Sababu

Tume ya Ulaya (EC), kupitia Mkurugenzi Mkuu wa Tafsiri (DGT) na Kituo cha Pamoja cha Utafiti (JRC), imeweka mfano katika data ya lugha nyingi wazi na DGT-TM (Kumbukumbu ya Tafsiri). Rasilimali hii ni sehemu ya mpango mpana zaidi wa kutoa mali kubwa za kilugha, kufuatia mkusanyiko sambamba wa JRC-Acquis. Toleo la 2011 la DGT-TM lina hati kutoka 2004-2010 na ni mara mbili ukubwa wa toleo la 2007. Jitihada hii inaendeshwa na kanuni ya msingi ya EU ya lugha nyingi, ikilenga kukuza utofauti wa kitamaduni, uwazi, na ufikiaji wa kidemokrasia wa habari kwa raia wote wa EU katika lugha zao za asili.

Utoaji huu unalingana na Agizo la 2003/98/EC kuhusu matumizi tena ya habari ya sekta ya umma, kukitambua data kama hiyo kama nyenzo muhimu za ubunifu wa kidijitali na huduma za kuvuka mipaka.

2. Rasilimali ya DGT-TM

DGT-TM ni mkusanyiko wa sentensi na tafsiri zao zilizotengenezwa kitaalamu na binadamu katika lugha 22 rasmi za EU.

2.1. Chanzo na Muundo wa Data

Data ya msingi inatokana na mchakato wa kazi wa tafsiri wa DGT ya Tume ya Ulaya. Inajumuisha hati halisi za kisheria, kisera, na kiutawala, na kuhakikisha tafsiri za hali ya juu, maalum kwa nyanja. Kumbukumbu imeundwa kama jozi za sentensi zilizopangwa, umbizo la kawaida la kubadilishana Kumbukumbu ya Tafsiri (TMX).

2.2. Historia ya Kutolewa na Takwimu

Toleo kuu la kwanza lilikuwa mwaka 2007. Toleo la 2011 (DGT-TM Toleo 2011) linajumuisha data hadi mwisho wa 2010 na linaashiria upanuzi mkubwa. EC inapanga kutoa toleo kila mwaka kuanzia sasa, na kuunda rasilimali hai, inayokua. Kipimo hiki kinajumuisha jozi zote 231 zinazowezekana za tafsiri za mwelekeo kati ya lugha 22.

3. Matumizi na Mifano ya Matumizi

3.1. Kwa Wataalamu wa Tafsiri

Kimsingi, DGT-TM hutumiwa na programu ya Kumbukumbu ya Tafsiri ili kuongeza uzalishaji wa watafsiri na kuhakikisha uthabiti wa istilahi kwa kupendekeza tafsiri za zamani za sentensi sawa au zinazofanana.

3.2. Kwa Utafiti wa Teknolojia ya Lugha

Rasilimali hii ni muhimu sana kwa utafiti na maendeleo katika:

Tafsiri ya Mashine ya Kitakwimu (SMT): Kama data ya mafunzo ya kujenga na kutathmini mifumo ya SMT kwa jozi za lugha zenye rasilimali chache.
Uchimbaji wa Istilahi: Kwa kuchimba orodha za istilahi za lugha mbili na nyingi maalum kwa nyanja.
Utambuzi wa Viumbe Vilivyopewa Majina (NER): Kwa kuunda na kutathmini zana za NER zinazovuka lugha.
Uainishaji wa Maandishi ya Lugha Nyingi & Kukusanya: Kama seti ya data iliyowekwa lebo kwa ajili ya uainishaji wa hati zinazovuka lugha.

4. Mazingira ya Kiufundi na Kisheria

Utoaji huu unafanya kazi chini ya mfumo wa Agizo la 2003/98/EC, ambalo linahimiza matumizi tena ya habari ya sekta ya umma ili kukuza ubunifu na soko la kidijitali lenye ushindani. Data inapatikana bure, na hivyo kupunguza vizuizi vya kuingia kwa watafiti na WKM katika sekta ya teknolojia ya lugha.

5. Rasilimali Zinazohusiana za EU

DGT-TM ni sehemu ya mfumo mkubwa wa rasilimali wazi za lugha nyingi kutoka taasisi za EU:

EUR-Lex: Kituo cha ufikiaji bure cha sheria za EU katika lugha 23.
IATE: Hifadhidata ya Istilahi ya Kuingiliana kwa Ulaya.
EuroVoc: Thesauri ya lugha nyingi, ya nyanja nyingi.
JRC-Names: Rasilimali ya utambuzi na uainishaji wa viumbe vilivyopewa majina.
JEX (JRC EuroVoc Indexer): Programu ya uainishaji wa kiotomatiki wa hati za lugha nyingi kwa kutumia EuroVoc.

Rasilimali hizi pamoja hutoa msingi kamili wa ufikiaji na usindikaji wa habari ya lugha nyingi.

6. Uelewa wa Msingi & Mtazamo wa Mchambuzi

Uelewa wa Msingi: DGT-TM sio seti ya data tu; ni mali ya kisiasa ya kijiografia. Tume ya Ulaya inatumia nafasi yake ya kipekee kama mwajiri mkubwa zaidi duniani wa watafsiri kitaalamu kujenga mkusanyiko wa lugha nyingi wa umma ulio kamili zaidi uliopo. Hatua hii inabadilisha kwa ustadi hitaji la kiburokrasi—tafsiri—kuwa faida ya ushindani kwa uchumi wa kidijitali na wa utafiti wa EU. Inapinga moja kwa moja utawala wa seti za data za umiliki, ambazo mara nyingi zinalenga Kiingereza, zinazoshikiliwa na makampuni makubwa ya teknolojia ya Marekani, kama ilivyojadiliwa katika rasilimali kama Anthology ya ACL kuhusu uhaba wa data kwa NLP.

Mtiririko wa Kimantiki: Mantiki hii ni kamili kabisa: 1) Sheria ya EU inahitaji lugha nyingi, 2) Hii inazalisha data kubwa, ya hali ya juu ya tafsiri, 3) Kwa kufungua data hii, EC inachochea ubunifu wa nje katika Teknolojia ya Lugha (LT), 4) LT iliyoboreshwa, kwa upande wake, inapunguza gharama ya baadaye na kuongeza ufanisi wa mchakato wa tafsiri uliozalisha data. Ni mzunguko mzuri ulioundwa ili kudhibitisha jukumu la EU kama kitovu cha kimataifa cha AI ya lugha nyingi.

Nguvu & Kasoro: Nguvu yake ni ukubwa usiofananishwa, ubora, na uwazi wa kisheria. Tofauti na mkusanyiko uliochimbwa kwenye wavuti, ni safi, imetafsiriwa kitaalamu, na inakuja na haki za matumizi zilizo wazi. Hata hivyo, kasoro yake kuu ni upendeleo wa nyanja. Mkusanyiko huu umeelekezwa sana kwenye mazungumzo ya kisheria, kiutawala, na kisiasa. Hii inapunguza utumiaji wake wa moja kwa moja kwa kufundisha mifumo imara, ya madhumuni ya jumla ya tafsiri ya mashine kwa lugha ya kawaida au ya kibiashara, pengo lililoangaziwa wakati wa kulinganisha aina yake na data ya nyanja mchanganyiko inayotumika katika mifano kama NMT ya Google. Ni mgodi wa dhahabu kwa NLP ya taasisi, lakini sio suluhisho la ukubwa mmoja.

Uelewa Unaoweza Kutekelezwa: Kwa watafiti, kipaumbele kinapaswa kuwa kurekebisha nyanja. Tumia DGT-TM kama mkusanyiko wa mbegu wa hali ya juu na utumie mbinu kama urekebishaji mzuri au tafsiri ya nyuma na data yenye kelele zaidi, pana zaidi ili kujenga mifano inayoweza kubadilika zaidi. Kwa watunga sera nje ya EU, huu ni mfano: amuru utolewaji wazi wa kumbukumbu za tafsiri za serikali. Kwa wajasiriamali, fursa iko katika kujenga zana maalum za SaaS kwa utafutaji na uchambuzi wa lugha nyingi unaolenga sheria au kufuata kanuni, kwa kutumia moja kwa moja nguvu hii maalum ya nyanja badala ya kupambana na upendeleo.

7. Maelezo ya Kiufundi & Mfumo wa Hisabati

Thamani ya msingi ya DGT-TM iko katika upangaji wake wa sentensi sambamba. Rasmi, kwa hati $D$ iliyotafsiriwa kutoka lugha chanzo $L_s$ hadi lugha lengo $L_t$, TM ina seti ya jozi zilizopangwa $\{(s_1, t_1), (s_2, t_2), ..., (s_n, t_n)\}$, ambapo $s_i$ ni sentensi chanzo na $t_i$ ni tafsiri yake iliyotolewa na binadamu.

Katika Tafsiri ya Mashine ya Kitakwimu, mkusanyiko kama huo hutumiwa kukadiria vigezo vya mfano wa tafsiri. Sehemu ya msingi ni uwezekano wa tafsiri ya kishazi $\phi(\bar{t}|\bar{s})$, iliyokadiriwa kutoka kwa masafa ya jamaa ndani ya data iliyopangwa: $$\phi(\bar{t}|\bar{s}) = \frac{\text{count}(\bar{s}, \bar{t})}{\sum_{\bar{t}'}\text{count}(\bar{s}, \bar{t}')}$$ ambapo $\bar{s}$ na $\bar{t}$ ni mfuatano unaoendelea wa maneno (vishazi) yaliyotolewa kutoka kwa jozi za sentensi zilizopangwa. Ukubwa mkubwa wa DGT-TM unaruhusu makadirio ya kuaminika zaidi ya uwezekano huu, hasa kwa vishazi virefu na jozi za lugha zenye masafa ya chini.

Kwa uchimbaji wa istilahi ya lugha mbili, vipimo kama habari ya pande zote za pande (PMI) vinaweza kuhesabiwa kwenye mkusanyiko uliopangwa ili kutambua tafsiri zinazowezekana za istilahi: $$\text{PMI}(s, t) = \log_2 \frac{P(s, t)}{P(s)P(t)}$$ ambapo $P(s, t)$ ni uwezekano wa neno chanzo $s$ na neno lengo $t$ kutokea pamoja katika sentensi zilizopangwa, na $P(s)$, $P(t)$ ni uwezekano wao wa pembeni.

8. Matokeo ya Majaribio & Uchambuzi wa Data

Ingawa PDF haionyeshi matokeo maalum ya majaribio, kipimo kilichoelezwa kinaashiria uwezo mkubwa. Kwa muktadha, utafiti unaotumia mkusanyiko unaofanana wa EU (kama JRC-Acquis) umeonyesha uboreshaji mkubwa wa ubora wa SMT kwa lugha za EU. Kwa mfano, Koehn & Knowles (2017) katika "Changamoto Sita za Tafsiri ya Neural ya Mashine" wanaona kuwa upatikanaji wa mkusanyiko mkubwa sambamba kama Europarl na Acquis ni sababu muhimu inayowezesha NMT yenye ushindani kwa lugha za Ulaya.

Maelezo ya Chati (Yaliyodhaniwa): Chati ya mfano ya mipango yenye kichwa "Ukuaji wa Jozi za Sentensi za DGT-TM (Toleo la 2007 dhidi ya 2011)" ingeonyesha mipango miwili kwa jozi ya lugha ya mfano (mf., Kiingereza-Kifaransa). Mpangilio wa 2007 ungekuwa na urefu fulani (unawakilisha kiasi cha awali). Mpangilio wa 2011 ungekuwa mrefu mara mbili, na kuthibitisha kwa kuona madai ya "kubwa mara mbili". Grafu ya mstari ya pili inaweza kuonyesha idadi ya jumla ya jozi za sentensi kwa miaka 2004-2010, na kuonyesha upokeaji thabiti wa hati zilizounda toleo la 2011.

Kichukuo cha takwimu muhimu ni kuongezeka mara mbili kwa kiasi cha data kati ya matoleo. Katika ujifunzaji wa mashine, hasa kwa mifano ya neva inayohitaji data sana, ongezeko hili la kipimo halina thamani ya mstari. Linaweza kuhamisha jozi ya lugha kutoka kuwa "yenye rasilimali chache" hadi "yenye rasilimali za kati," na kwa uwezekano kuboresha vipimo vya ubora wa tafsiri (mf., alama ya BLEU) kwa pointi kadhaa, kama ilivyoonwa katika masomo juu ya sheria za kuongeza data kwa NMT.

9. Mfumo wa Uchambuzi: Mfano wa Matumizi

Hali: Kampuni ya kuanzishwa ya teknolojia ya lugha inataka kujenga zana maalum kwa ajili ya kufuatilia matangazo ya udhibiti wa EU kwenye lugha mbalimbali.

Utumiaji wa Mfumo (Hakuna Msimbo):

Mgawanyiko wa Tatizo: Kazi ya msingi ni utafutaji wa habari unaovuka lugha (CLIR) na uainishaji katika nyanja ya kisheria/udhibiti.
Ramani ya Rasilimali:
- DGT-TM: Inatumiwa kama mkusanyiko sambamba wa kufundisha mfano maalum wa nyanja wa ulaji wa maneno ya lugha mbili (mf., kwa kutumia VecMap au MUSE) kwa Kiingereza na Kifaransa. Hii inaunda nafasi ya vekta ambapo istilahi za udhibiti zinazofanana kimaana kwenye lugha mbalimbali zimepangwa karibu.
- EuroVoc (kupitia JEX): Inatumiwa kama mpango wa uainishaji lengo. Hati zimewekwa lebo na maelezo muhimu ya EuroVoc.
- IATE: Inatumiwa kama kamusi ya uthibitishaji ili kuangalia ubora wa upangaji wa istilahi uliojifunza kutoka DGT-TM.
Mtiririko wa Mchakato:
1. Fundisha ulaji wa maneno yanayovuka lugha kwenye DGT-TM.
2. Kwa hati mpya ya udhibiti ya Kifaransa, ibadilishe kuwa vekta ya hati kwa kutumia ulaji wa Kifaransa.
3. Elekeza vekta hii ndani ya nafasi ya ulaji wa Kiingereza kwa kutumia upangaji uliojifunzwa katika hatua ya 1.
4. Linganisha vekta iliyoelekezwa na hifadhidata ya hati za Kiingereza zilizobadilishwa kuwa vekta mapema (zilizowekwa katika makundi na EuroVoc kupitia JEX) ili kupata sheria za EU zinazofanana zaidi kimaana.
5. Weka maelezo muhimu ya EuroVoc kutoka kwa hati za Kiingereza zilizolingana kwenye hati mpya ya Kifaransa.
Matokeo: Kampuni ya kuanzishwa sasa inaweza kugawa makundi na kuunganisha maandishi mapya ya udhibiti katika lugha yoyote iliyofunikwa kwenye mkusanyiko uliopo wa lugha nyingi, na kuwezesha ufuatiliaji na uchambuzi wenye ufanisi.

Mfano huu unaonyesha jinsi DGT-TM inavyofanya kazi kama "gundi" muhimu au data ya mafunzo inayowezesha kuunganishwa kwa rasilimali zingine za EU (EuroVoc, IATE) katika programu inayofanya kazi, maalum kwa nyanja.

10. Matumizi ya Baadaye & Mwelekeo wa Maendeleo

Njia ya DGT-TM inaelekea kuelekea maendeleo kadhaa muhimu ya baadaye:

Msingi wa Mifano Kubwa ya Lugha (LLMs): DGT-TM ni bora kwa kufundisha awali au kurekebisha LLMs za lugha nyingi (kama BERT au XLM-R) hasa kwa nyanja za kisheria na kiutawala, na kuunda "Regulatory GPTs" maalum.
Kumbukumbu ya Tafsiri ya Wakati Halisi kama Huduma (TMaaS): Kwa sasisho za kila mwaka, EC inaweza kutoa API hai ambapo mapendekezo ya tafsiri hutolewa kutoka kwa DGT-TM nzima, inayokua kila wakati, na kuwafaa watafsiri huru na mashirika madogo duniani kote.
Ugunduzi wa Upendeleo na Ukaguzi wa Haki: Mkusanyiko huu, kama rekodi ya mawasiliano rasmi ya EU, unaweza kuchambuliwa ili kukagua upendeleo wa lugha, mageuzi ya istilahi, na uwakilishi kwenye lugha na maeneo ya sera.
Programu Zilizoimarishwa za Njia Nyingi: Matoleo ya baadaye yanaweza kuunganishwa na data nyingine wazi, kama hotuba za umma (video/sauti) au maandishi ya kisheria yaliyoundwa (PDFs zenye muundo), na kuwezesha utafiti katika tafsiri ya njia nyingi na uelewa wa hati.
Kiwango cha Tathmini: DGT-TM inaweza kuwa kiwango cha kawaida cha kutathmini uthabiti wa mifumo ya kibiashara ya MT kwenye maandishi rasmi, yanayohusisha hisia za kisheria, na kuendelea zaidi ya viwango vya tathmini vya nyanja ya jumla.

Ahadi ya matoleo ya kila mwaka inabadilisha DGT-TM kutoka picha tuli hadi seti ya data ya muda mrefu, inayobadilika, na kufungua njia mpya za utafiti katika kufuatilia mabadiliko ya lugha na athari ya sera kwa muda.

11. Marejeo

Steinberger, R., Eisele, A., Klocek, S., Pilos, S., & Schlüter, P. (Mwaka). DGT-TM: Kumbukumbu ya Tafsiri Inayopatikana Bure katika Lugha 22. Tume ya Ulaya.
Steinberger, R., Pouliquen, B., Widiger, A., Ignat, C., Erjavec, T., Tufiș, D., & Varga, D. (2006). JRC-Acquis: Mkusanyiko Sambamba Uliofungwa wa Lugha Nyingi na Lugha 20+. Michango ya Mkutano wa 5 wa Kimataifa wa Rasilimali za Lugha na Tathmini (LREC'06).
Koehn, P., & Knowles, R. (2017). Changamoto Sita za Tafsiri ya Neural ya Mashine. Michango ya Warsha ya Kwanza ya Tafsiri ya Neural ya Mashine. Chama cha Usindikaji wa Lugha.
Tume ya Ulaya, Mkurugenzi Mkuu wa Tafsiri. (2008). Kutafsiri kwa Jumuiya ya Lugha Nyingi. Ofisi ya Uchapishaji ya Umoja wa Ulaya.
Agizo la 2003/98/EC la Bunge la Ulaya na Baraza kuhusu matumizi tena ya habari ya sekta ya umma. Gazeti Rasmi la Umoja wa Ulaya, L 345.
Conneau, A., et al. (2020). Ujifunzaji wa Uwakilishi Unaovuka Lugha Bila Usimamizi katika Kipimo. Michango ya Mkutano wa Mwaka wa 58 wa Chama cha Usindikaji wa Lugha (ACL). (Marejeo ya mfano wa XLM-R, yanayohusiana na matumizi ya baadaye ya LLM).
Anthology ya ACL. (n.d.). Hifadhidata ya kidijitali ya karatasi za utafiti katika isimu ya kompyuta. Imepatikana kutoka https://www.aclweb.org/anthology/ (Marejeo ya jumla ya muktadha wa utafiti wa NLP).