Uhamishaji wa Lugha Nyingi na Ubadilishaji wa Kikoa kwa Lugha za Uhispania zenye Rasilimali Chache: Wasilisho la HW-TSC WMT 2024

1. Utangulizi

Hati hii inaelezea kwa kina wasilisho la Kituo cha Huduma za Tafsiri cha Huawei (HW-TSC) kwa kazi ya WMT 2024 ya "Kutafsiri kwa Lugha za Uhispania zenye Rasilimali Chache". Timu ilishiriki katika mwelekeo tatu maalum ya tafsiri: Kihispania hadi Kiaragoni (es→arg), Kihispania hadi Kiarani (es→arn), na Kihispania hadi Kiasturia (es→ast). Changamoto kuu inayoshughulikiwa ni Tafsiri ya Kineva ya Mashine (NMT) kwa lugha zenye data ya mafunzo sambamba iliyopunguzwa sana, kikwazo cha kawaida katika kufanya teknolojia ya tafsiri iwe jumuishi.

Ufumbuzi uliopendekezwa unatumia mchanganyiko wa mikakati ya hali ya juu ya mafunzo inayotumika kwa muundo wa kina wa Transformer-big. Mikakati hii inajumuisha ujifunzaji wa uhamishaji wa lugha nyingi, kupunguzwa kwa kawaida kwa kutumia dropout, uzalishaji wa data bandia kupitia tafsiri ya mbele na nyuma, kupunguza kelele kwa kutumia LaBSE denoising, na uthabiti wa mfano kupitia ujifunzaji wa mkusanyiko wa transduction. Ujumuishaji wa mbinu hizi ulilenga kuongeza ubora wa tafsiri licha ya upungufu wa data, na kufikia matokeo ya ushindani katika tathmini ya mwisho.

2. Seti ya Data

Mafunzo yalifanyika kwa kutumia data iliyotolewa na waandaaji wa WMT 2024 pekee, na kuhakikisha kulinganishwa kwa haki. Data inajumuisha mkusanyiko wa data sambamba ya lugha mbili na data ya lugha moja katika lugha ya chanzo (Kihispania) na lugha lengwa (zenye rasilimali chache).

Takwimu za Data

Kiwango cha data inayopatikana kinabadilika sana kati ya jozi tatu za lugha, na kuonyesha hali ya "rasilimali chache", hasa kwa Kiaragoni.

2.1 Ukubwa wa Data

Jedwali lifuatalo (lililojengwa upya kutoka PDF) linatoa muhtasari wa data inayopatikana kwa kila jozi ya lugha. Takwimu zote ziko katika mamilioni (M) ya jozi za sentensi au sentensi.

Jozi ya Lugha	Data ya Lugha Mbili	Chanzo (es) Lugha Moja	Lengo Lugha Moja
es → arg	0.06M	0.4M	0.26M
es → arn	2.04M	8M	6M
es → ast	13.36M	8M	3M

Ufahamu Muhimu: Tofauti kubwa katika data ya lugha mbili (0.06M kwa Kiaragoni dhidi ya 13.36M kwa Kiasturia) inahitaji mbinu thabiti za uhamishaji na uongezaji wa data. Mkusanyiko mkubwa zaidi wa data ya lugha moja unakuwa rasilimali muhimu kwa kuzalisha data sambamba bandia.

3. Muhtasari wa Mfumo wa NMT

Mfumo umejengwa juu ya muundo wa Transformer-big wa kina. Uvumbuzi hauko katika mfumo wa msingi, bali katika mchakata wa kisasa wa mikakati ya mafunzo iliyoundwa kushinda vikwazo vya data:

Ujifunzaji wa Awali wa Lugha Nyingi: Mfumo hujifunza awali kwenye mchanganyiko wa data ya lugha zinazohusiana (k.m., lugha nyingine za Kirumi). Hii huruhusu vigezo (msamiati, safu za kodi na kudishi) kushirikiwa, na kuwezesha uhamishaji wa ujuzi kutoka kwa lugha zenye rasilimali nyingi hadi zenye rasilimali chache.
Kupunguzwa kwa Kawaida kwa kutumia Dropout (Wu et al., 2021): Mbinu ya hali ya juu ya dropout inayoboresha ujumuishaji wa mfumo na kuzuia kufanya mafunzo kupita kiasi kwenye seti ndogo za data kwa kutumia vifuniko thabiti vya dropout katika safu tofauti au hatua za mafunzo.
Uzalishaji wa Data Bandia:
- Tafsiri ya Mbele: Kutafsiri data ya lugha moja ya lugha lengwa kurudi kwenye lugha ya chanzo ili kuunda jozi bandia za chanzo na lengwa.
- Tafsiri ya Nyuma: Kutafsiri data ya lugha moja ya lugha ya chanzo hadi lugha lengwa, mbinu muhimu ya uongezaji wa data ya NMT.
LaBSE Denoising (Feng et al., 2020): Kutumia mfumo wa Uingizaji wa Sentensi wa BERT usio na ubaguzi wa lugha (LaBSE) kuchuja jozi za sentensi zenye kelele au ubora wa chini kutoka kwa data bandia, na kuhakikisha tu mifano ya ubora wa juu inaongoza mafunzo ya mwisho.
Ujifunzaji wa Mkusanyiko wa Transduction (Wang et al., 2020): Njia ya kuunganisha uwezo wa mifano kadhaa ya NMT iliyofunzwa kibinafsi (k.m., iliyofunzwa kwenye mchanganyiko tofauti wa data) kuwa mfumo mmoja wenye nguvu zaidi, badala ya kufanya mkusanyiko wakati wa utendaji.

4. Usanidi wa Majaribio na Matokeo

Makala yanasema kuwa kutumia mikakati ya uboreshaji iliyotajwa hapo juu ilisababisha matokeo ya ushindani katika tathmini ya mwisho ya WMT 2024. Ingawa alama maalum za BLEU au chrF++ hazijatolewa katika dondoo, matokeo yanathibitisha ufanisi wa njia ya mikakati mingi kwa hali ya rasilimali chache. Mafanikio yanaweza kutokana na hali ya kukamilishana ya mikakati: ujifunzaji wa uhamishaji hutoa uanzishaji thabiti, data bandia hupanua seti ya data yenye tija, denoising inaisafisha, na mbinu za kawaida/msingi zinathibitisha na kuongeza utendaji wa mwisho.

5. Uchambuzi Mkuu na Tafsiri ya Mtaalamu

Ufahamu Mkuu

Wasilisho la Huawei ni mfano bora wa uhandisi wa vitendo kuliko uvumbuzi wa kinadharia. Katika uwanja wa hatari kubwa wa WMT, wameweka mkusanyiko wa mbinu zilizothibitishwa, lakini zenye nguvu, badala ya kuweka kamari kwenye uvumbuzi mmoja usiojulikana. Hii sio kuhusu kuunda mfumo mpya; ni kuhusu kuvunja tatizo la upungufu wa data kwa utaratibu kupitia ulinzi wa safu nyingi: ujifunzaji wa uhamishaji kwa ujuzi wa msingi, data bandia kwa kiwango, denoising kwa udhibiti wa ubora, na mbinu za mkusanyiko kwa utendaji wa kilele. Ni kukumbushwa kwamba katika AI inayotumika, mifumo thabiti mara nyingi hushinda algoriti dhaifu.

Mtiririko wa Mantiki

Njia hufuata mantiki thabiti, inayoweza kutumiwa mara moja. Huanza na sehemu ya mantiki zaidi ya kutumia faida—uhamishaji wa lugha nyingi—kutumia uhusiano wa kisarufi wa lugha za kikanda za Uhispania. Hii ni sawa na kufunza mfumo awali kwenye upigaji picha wa jumla kabla ya kurekebisha kwa mtindo maalum, kanuni iliyothibitishwa na mifano kama CycleGAN (Zhu et al., 2017) ambayo hutumia jenereta zinazoshirikiwa kwa kubadilisha kikoa. Kisha wanashughulikia tatizo kuu la upungufu kwa kuongeza data kwa kiasi kikubwa kupitia tafsiri ya mbele/nyuma, mkakati uliothibitishwa kutoka kwa enzi za SMT na NMT. Muhimu zaidi, hawachukui data hii bandia kwa thamani yake; hatua ya LaBSE denoising ni lango muhimu la ubora, likichuja kelele ambayo inaweza kudhoofisha mfumo—somo lililojifunza kutoka kwa changamoto za juhudi za awali za tafsiri ya nyuma. Mwishowe, wanathibitisha mafanikio kupitia ujifunzaji wa mkusanyiko, na kuhakikisha uthabiti.

Nguvu na Kasoro

Nguvu: Njia hii ni kamili na yenye hatari ndogo. Kila sehemu inashughulikia udhaifu unaojulikana katika NMT ya rasilimali chache. Matumizi ya LaBSE kwa denoising ni ya busara sana, kwa kutumia mfumo wa kisasa wa uingizaji wa sentensi kwa kazi ya vitendo ya kusafisha data. Mwelekeo kwenye muundo wa kawaida wa Transformer-big unahakikisha uwezekano wa kurudiwa na uthabiti.

Kasoro: Jambo kubwa linalojitokeza ni kukosekana kabisa kwa ujumuishaji wa Mfumo Mkubwa wa Lugha (LLM). Makala yanataja LLM kama mwelekeo lakini hayatumii. Mnamo 2024, kutojaribu kurekebisha LLM ya lugha nyingi (kama BLOOM au Llama) kwa kazi hizi ni ukosefu mkubwa wa mkakati. LLM, kwa ujuzi wao mkubwa wa vigezo na uwezo wa kujifunza katika muktadha, wameweka viwango vipya vya tafsiri ya rasilimali chache, kama ilivyoelezwa katika uchunguzi wa ACL (Ruder, 2023). Zaidi ya hayo, makala hayana masomo ya kujiondoa. Hatujui ni mkakati gani (denoising dhidi ya mkusanyiko dhidi ya uhamishaji) ulichangia zaidi kwa mafanikio, na kuifanya iwe suluhisho la kisanduku nyeusi.

Ufahamu Unaoweza Kutekelezwa

Kwa watendaji: Nakili mchakata huu, lakini weka LLM ndani. Tumia LLM ya lugha nyingi kama msingi wa ujifunzaji wa uhamishaji badala ya, au pamoja na, mfumo maalum wa NMT wa lugha nyingi. Chunguza mbinu za urekebishaji wenye ufanisi wa vigezo (PEFT) kama LoRA ili kurekebisha LLM kwa ufanisi. Hatua za denoising na mkusanyiko bado zina thamani kubwa. Kwa watafiti: Uwanja unahitaji viwango vya wazi zaidi juu ya gharama/faida ya mifumo ya data bandia dhidi ya urekebishaji wa LLM katika hali ya rasilimali chache. Kazi ya Huawei ni kiwango cha msingi kikubwa cha ya kwanza; makala inayofuata inapaswa kulinganisha kwa ukali na ya pili.

6. Maelezo ya Kiufundi na Uundaji wa Kihisabati

Ingawa dondoo la PDF halitoi fomula wazi, mbinu kuu zinaweza kuelezewa rasmi:

Kupunguzwa kwa Kawaida kwa kutumia Dropout (Dhana): Tofauti na dropout ya kawaida ambayo hutumia vifuniko bila mpangilio kwa kujitegemea, dropout iliyodhibitiwa inalazimisha uthabiti. Kwa pato $h$ la safu, badala ya $h_{drop} = h \odot m$ ambapo $m \sim \text{Bernoulli}(p)$ inabadilika kila wakati, lahaja inaweza kutumia kifuniko sawa $m$ kwa mlolongo maalum wa ingizo katika safu nyingi au hatua za mafunzo, na kulazimisha mfumo kujifunza vipengele thabiti zaidi. Kazi ya hasara wakati wa mafunzo hujumuisha uthabiti huu kama kizuizi cha kawaida.

Lengo la Tafsiri ya Nyuma: Kwa kuzingatia sentensi ya lugha moja katika lugha lengwa $y$, mfumo wa nyuma $\theta_{y\rightarrow x}$ huzalisha sentensi bandia ya chanzo $\hat{x}$. Jozi bandia $(\hat{x}, y)$ kisha hutumiwa kufunza mfumo wa mbele $\theta_{x\rightarrow y}$ kwa kupunguza uwezekano hasi wa logi: $\mathcal{L}_{BT} = -\sum \log P(y | \hat{x}; \theta_{x\rightarrow y})$.

Kichujio cha LaBSE Denoising: Kwa jozi bandia $(\hat{x}, y)$, uingizaji wao wa LaBSE $e_{\hat{x}}, e_{y}$ huhesabiwa. Jozi huhifadhiwa tu ikiwa ufanano wao wa cosine unazidi kizingiti $\tau$: $\frac{e_{\hat{x}} \cdot e_{y}}{\|e_{\hat{x}}\|\|e_{y}\|} > \tau$. Hii huchuja jozi ambapo uunganisho wa maana ni dhaifu.

7. Matokeo na Maelezo ya Chati

Yaliyomo ya PDF yaliyotolewa hayajumuisha jedwali maalum la matokeo au chati. Kulingana na maelezo, chati ya matokeo ya kinadharia ingeonyesha:

Aina ya Chati: Chati ya baa zilizogawanyika katika vikundi.
Mhimili wa X: Jozi tatu za lugha: es→arg, es→arn, es→ast.
Mhimili wa Y: Alama za kipimo cha tathmini ya kiotomatiki (k.m., BLEU, chrF++).
Baa: Baa nyingi kwa kila jozi ya lugha zinazolinganisha: 1) Kiwango cha Msingi (Transformer-big kwenye data ya lugha mbili pekee), 2) +Uhamishaji wa Lugha Nyingi, 3) +Data Bandia (BT/FT), 4) +Denoising & Mkusanyiko (Mfumo kamili wa HW-TSC).
Mwelekeo Unaotarajiwa: Ongezeko kubwa la alama kutoka kiwango cha msingi hadi mfumo kamili, na uboreshaji mkubwa zaidi wa jamaa unatarajiwa kwa lugha yenye rasilimali chache zaidi, es→arg, na kuonyesha ufanisi wa mbinu katika upungufu mkubwa wa data.

Hitimisho la makala kwamba mfumo ulifanikiwa "matokeo ya ushindani" inamaanisha kuwa baa za mwisho za HW-TSC zingekuwa karibu na juu ya jedwali la ushindi kwa kila kazi katika tathmini ya WMT 2024.

8. Mfumo wa Uchambuzi: Mfano wa Utafiti

Hali: Kampuni ya teknolojia inataka kujenga mfumo wa tafsiri kwa lahaja mpya ya rasilimali chache, "LangX," yenye sentensi sambamba 10,000 tu lakini sentensi milioni 1 za lugha moja katika lugha ya jamaa yenye rasilimali nyingi "LangH."

Utumiaji wa Mfumo (Uliyoongozwa na HW-TSC):

Awamu ya 1 - Msingi (Uhamishaji): Funza mfumo wa lugha nyingi awali kwenye data inayopatikana kwa umma kwa LangH na lugha nyingine katika familia ileile. Anzisha mfumo wa LangH→LangX na uzito huu.
Awamu ya 2 - Kipimo (Uzalishaji):
- Tumia mfumo wa awali kufanya tafsiri ya nyuma kwenye sentensi milioni 1 za lugha moja za LangH, na kuunda jozi bandia za (LangH, synthetic_LangX).
- Funza mfumo wa kinyume (LangX→LangH) kwenye jozi 10K halisi, kisha uitumie kwa tafsiri ya mbele kwenye data ya lugha moja ya LangX (ikiwa inapatikana), na kuunda jozi bandia za (synthetic_LangH, LangX).
Awamu ya 3 - Boresha (Denoising): Unganisha jozi zote halisi na bandia. Tumia mfumo wa uingizaji wa sentensi (k.m., LaBSE) kuhesabu alama za ufanano kwa kila jozi bandia. Chuja jozi zote chini ya kizingiti cha ufanano kilichorekebishwa (k.m., 0.8).
Awamu ya 4 - Boresha Zaidi (Funza & Mkusanyiko): Funza mifano kadhaa ya mwisho kwenye seti ya data iliyosafishwa, iliyopanuliwa na dropout iliyodhibitiwa. Tumia ujifunzaji wa mkusanyiko wa transduction kuiunganisha kuwa mfumo mmoja wa uzalishaji.

Njia hii ya kimuundo, yenye awamu zilizowekwa vizingiti, inapunguza hatari ya mradi na hutoa hatua wazi za maendeleo, na kuakisi mchakata wa utafiti na maendeleo wa viwanda unaoonekana katika kazi ya Huawei.

9. Matumizi ya Baadaye na Mwelekeo

Mbinu zilizoonyeshwa zina matumizi mapana zaidi ya lugha maalum za Uhispania:

Uhifadhi wa Kidijitali: Kuwezesha tafsiri na uundaji wa maudhui kwa mamia ya lugha za dunia zinazohatarishwa na data ndogo ya sambamba.
Ubadilishaji wa Kikoa cha Biashara: Kubadilisha haraka mifumo ya jumla ya MT kwa istilahi maalumu sana (k.m., kisheria, kimatibabu) ambapo data sambamba ya kikoa ni chache lakini hati za mwongozo/za zamani za lugha moja zipo.
Ujifunzaji wa Rasilimali Chache wa Njia Nyingi: Kanuni za mchakata—uhamishaji, data bandia, denoising—zinaweza kubadilishwa kwa kazi za uundaji wa maelezo ya picha au tafsiri ya usemi zenye rasilimali chache.

Mwelekeo wa Utafiti wa Baadaye:

Ujumuishaji wa LLM: Mwelekeo wa haraka zaidi ni kujumuisha mchakata huu na LLM za decoder pekee. Kazi ya baadaye inapaswa kulinganisha urekebishaji (k.m., Mistral, Llama) dhidi ya njia hii maalum ya NMT kwa suala la ubora, gharama, na ucheleweshaji.
Upangaji wa Data wa Kienyeji: Badala ya kuchuja kwa kawaida, tengeneza mikakati ya ujifunzaji ya mtaala inayopanga kwa busara kuanzishwa kwa data halisi dhidi ya bandia, safi dhidi ya yenye kelele wakati wa mafunzo.
Denoising Inayoweza Kuelezewa: Pita zaidi ya vizingiti vya ufanano wa cosine hadi vipimo vinavyoweza kufafanuliwa zaidi vya ubora wa data bandia, kwa uwezekano kwa kutumia ujasiri wa mfumo au makadirio ya kutokuwa na uhakika.
Uhamishaji wa Zero-Shot: Kuchunguza jinsi mifumo iliyofunzwa kwenye mkusanyiko huu wa lugha za Uhispania inavyofanya kazi kwenye lugha za Kirumi zinazohusiana ambazo hazijawahi kuonekana, na kusukuma kuelekea uwezo wa kweli wa zero-shot.

10. Marejeo

Bahdanau, D., Cho, K., & Bengio, Y. (2014). Tafsiri ya kineva ya mashine kwa kujifunza pamoja kusawazisha na kutafsiri. Hati ya awali ya arXiv arXiv:1409.0473.
Feng, F., Yang, Y., Cer, D., Ariwazhagan, N., & Wang, W. (2020). Uingizaji wa sentensi wa BERT usio na ubaguzi wa lugha. Hati ya awali ya arXiv arXiv:2007.01852.
Koehn, P., et al. (2007). Musa: Zana ya chanzo wazi ya tafsiri ya kihisabati ya mashine. ACL.
Li, Z., et al. (2022). Ujifunzaji wa awali wa tafsiri ya kineva ya mashine ya lugha nyingi kwa kutumia faida ya habari ya usawazishaji. Matokeo ya EMNLP.
Ruder, S. (2023). Maendeleo ya hivi karibuni katika Usindikaji wa Lugha ya Asili. Uchunguzi wa ACL Rolling Review.
Wang, Y., et al. (2020). Ujifunzaji wa mkusanyiko wa transduction kwa tafsiri ya kineva ya mashine. AAAI.
Wu, Z., et al. (2021). Dropout iliyodhibitiwa kwa tafsiri ya kineva ya mashine. ACL-IJCNLP.
Wu, Z., et al. (2023). Data bandia kwa tafsiri ya kineva ya mashine: Uchunguzi. Isimu ya Kompyuta.
Zhu, J.Y., Park, T., Isola, P., & Efros, A.A. (2017). Kutafsiri picha hadi picha bila jozi kwa kutumia mitandao ya kupingana yenye mzunguko thabiti. ICCV.