Kuanzisha Vichanganuzi vya Maana ya Lugha Nyingi kwa Kutumia Mifano ya Lugha Kubwa: Uchambuzi na Mfumo

1. Utangulizi na Muhtasari

Kazi hii inashughulikia kikwazo muhimu katika NLP ya lugha nyingi: kuunda data yenye lebo za ubora wa juu, zinazolenga kazi maalum kwa lugha zenye rasilimali chache. Mfumo wa jadi wa tafsiri-kufundisha unategemea huduma za tafsiri ya mashine, ambazo ni ghali, zinaweza kukosa mwafaka wa kikoa, na zinahitaji makadirio tofauti ya muundo wa kimantiki. Waandishi wanapendekeza LLM-T, mfuatano mpya unaotumia uwezo wa Mifano ya Lugha Kubwa (LLM) wa mifano michache kuanzisha seti za data za uchanganuzi wa maana ya lugha nyingi. Kwa kuzingatia seti ndogo ya mwanzo ya mifano iliyotafsiriwa na binadamu, LLM inasukumwa kutafsiri jozi za Kiingereza (usemi, muundo wa kimantiki) hadi lugha lengwa, na hivyo kuzalisha data ya mafunzo ya kurekebisha kichanganuzi cha maana.

Uelewa Muhimu

LLM zinaweza kufanya tafsiri changamano, iliyoundwa (usemi + muundo wa kimantiki) kwa ufanisi kupitia ujifunzaji ndani ya mazingira.
Njia hii inapunguza utegemezi wa mifumo ya MT ya jumla, ghali na kanuni dhaifu za makadirio.
Inashinda misingi dhabiti ya tafsiri-kufundisha katika lugha 41 kati ya 50 katika seti kuu mbili za data.

2. Mbinu: Mfuatano wa LLM-T

Ubunifu msingi ni mfuatano wa utaratibu wa tafsiri ya data kwa kutumia LLM zilizosukumwa.

2.1 Ukusanyaji wa Data ya Mwanzo

Seti ndogo ya mifano ya Kiingereza kutoka kwenye seti ya data asilia $D_{eng} = \{(x^i_{eng}, y^i_{eng})\}$ hutafsiriwa kwa mikono hadi lugha lengwa $tgt$ ili kuunda seti ya mwanzo $S_{tgt}$. Hii hutoa mifano ya mazingira kwa LLM, na kumfundisha kazi ya tafsiri ya pamoja ya usemi na muundo wa kimantiki.

2.2 Kusukumia Ndani ya Mazingira kwa Tafsiri

Kwa kila mfano mpya wa Kiingereza $(x_{eng}, y_{eng})$, sehemu ndogo ya mifano $k$ kutoka $S_{tgt}$ huchaguliwa (kwa mfano, kupitia ufanani wa maana) na kuwekwa katika muundo wa kusukumia. LLM (kwa mfano, PaLM) kisha hupewa kazi ya kuzalisha jozi inayolingana ya lugha lengwa $(\hat{x}_{tgt}, \hat{y}_{tgt})$.

Muundo wa Kusukumia: [Mfano wa Mwanzo 1: (x_tgt, y_tgt)] ... [Mfano wa Mwanzo k] [Ingizo: (x_eng, y_eng)] [Matokeo: ]

2.3 Udhibiti wa Ubora kupitia Uchanganuzi wa Kiini

Ili kuongeza utofauti na ubora, waandishi hutumia uchanganuzi wa kiini (top-$p$) wakati wa uzalishaji, na huzalisha tafsiri nyingi za wagombea kwa kila mfano. Utaratibu wa uteuzi au ujumlishaji (kwa mfano, kulingana na ujasiri wa kichanganuzi au uthabiti) kisha unaweza kutumika kuchagua matokeo ya mwisho, na kuunda seti ya data ya sintetiki $\hat{D}_{tgt}$.

3. Maelezo ya Kiufundi na Uundaji wa Kihisabati

Mchakato huu unaweza kuwekwa kama uzalishaji wenye masharti. Kwa kuzingatia jozi ya Kiingereza $(x_e, y_e)$ na seti ya mwanzo $S_t$, mfano hujifunza uchoraji ramani:

$P(x_t, y_t | x_e, y_e, S_t) = \prod_{i=1}^{L} P(w_i | w_{

ambapo $(x_t, y_t)$ ni mlolongo lengwa na uzalishaji hutumia uchanganuzi wa kiini: $p' = \frac{p}{\sum_{w \in V^{(p)}} p(w)}$ kwa $V^{(p)}$, seti ndogo zaidi ambapo $\sum_{w \in V^{(p)}} P(w) \ge p$. Chaguo muhimu za muundo zinahusisha uteuzi wa mwanzo, muundo wa kusukumia, na mkakati wa kusimbua ili kuongeza $P(x_t, y_t)$.

4. Matokeo ya Majaribio na Uchambuzi

4.1 Seti za Data: MTOP & MASSIVE

Majaribio yalifanywa kwenye seti mbili za umma za data za uchanganuzi wa maana zinazoshughulikia dhamira na sehemu katika nyanja mbalimbali (kwa mfano, kengele, urambazaji, ununuzi).

MTOP: Inashughulikia nyanja 6, dhamira 11, lugha 11.
MASSIVE: Inashughulikia nyanja 18, dhamira 60, lugha 51 (zikiwemo nyingi zenye rasilimali chache).

Kipimo hiki hutoa uwanja thabiti wa majaribio kwa ujumuishaji wa lugha nyingi.

4.2 Ulinganisho wa Utendaji

Misingi ya msingi ni mbinu dhabiti ya tafsiri-kufundisha kwa kutumia mfumo wa kisasa wa MT (kwa mfano, Google Translate) ikifuatiwa na makadirio ya kimantiki ya muundo wa kimantiki kwa njia ya heuristi au iliyojifunza. Njia ya LLM-T inaonyesha mafanikio makubwa:

Muhtasari wa Utendaji

LLM-T inashinda Tafsiri-Kufundisha katika lugha 41/50. Uboreshaji wa wastani ni wa kuvutia, hasa kwa lugha zenye umbali mkubwa wa kiisimu au zenye rasilimali chache ambapo ubora wa MT wa kawaida unapungua. Mafanikio hayo yanathibitishwa katika usahihi wa dhamira na alama za F1 za sehemu.

4.3 Matokeo Muhimu na Uchambuzi wa Kujiondoa

Ukubwa na Ubora wa Seti ya Mwanzo: Utendaji hujaa kwa idadi ndogo ya mifano ya mwanzo yenye ubora wa juu (kwa mfano, ~50-100), na kuonyesha ufanisi wa data.
Muundo wa Kusukumia: Kujumuisha tafsiri ya asili (Kiingereza) na lengwa katika kusukumia ni muhimu. Muundo $(x, y)$ ni bora zaidi kuliko $x$ pekee.
Kipimo cha Mfano: LLM kubwa (kwa mfano, PaLM yenye vigezo 540B) hutoa tafsiri bora zaidi kuliko ndogo, na kuonyesha jukumu la uwezo wa mfano katika kazi hii changamani.
Uchambuzi wa Makosa: Makosa ya kawaida yanahusisha tafsiri ya thamani ya sehemu kwa vitu maalum vya kitamaduni (tarehe, bidhaa) na ujumuishaji wa muundo kwa maswali changamani.

5. Mfumo wa Uchambuzi: Uelewa Msingi na Ukosoaji

Uelewa Msingi: Mafanikio ya karatasi hii si tu juu ya kutumia LLM kwa tafsiri; ni juu ya kubadilisha muundo wa uundaji wa seti ya data kuwa kazi ya uzalishaji wa mifano michache, ndani ya mazingira. Hii inapuuza mfuatano mzima dhaifu wa MT + makadirio tofauti, ambao mara nyingi hushindwa kutokana na uenezaji wa makosa na kutofautiana kwa kikoa. Uelewa kwamba LLM inaweza kujifunza uchoraji ramani kati ya tofauti za lugha asilia na uwakilishi wake rasmi katika lugha mbalimbali ni wa kina. Inalingana na matokeo kutoka kwa kazi kama "Mifano ya Lugha ni Wajifunzaji wa Mifano Michache" (Brown et al., 2020) lakini inatumia kwa tatizo la usanisi wa data iliyoundwa, ya lugha nyingi.

Mtiririko wa Kimantiki: Hoja ni wazi: 1) Tafsiri-kufundisha ni ghali na dhaifu. 2) LLM zinafanikiwa katika kuendana na muundo wa mifano michache, ya lugha nyingi. 3) Kwa hivyo, tumia LLM kuzalisha moja kwa moja jozi za (usemi, muundo wa kimantiki) zinazohitajika kwa mafunzo. Majaribio kwenye lugha 50 hutoa ushahidi mkubwa wa dhana hii.

Nguvu na Kasoro: Nguvu kuu ni kupunguzwa kwa gharama kubwa ya uwekaji alama na uwezo wa kukabiliana na lugha yoyote kwa seti ndogo ya mwanzo—mabadiliko makubwa kwa NLP yenye rasilimali chache. Mafanikio ya utendaji ni ya kushawishi na ya anuwai. Hata hivyo, mbinu hii ina kasoro muhimu. Kwanza, inategemea kabisa uwezo wa umiliki wa LLM kubwa, iliyofungwa (PaLM). Uwezekano wa kurudia, gharama, na udhibiti ni wasiwasi mkubwa. Pili, inadhania uwepo wa seti ndogo ya mwanzo lakini kamili, ambayo kwa lugha zenye rasilimali chache za kweli bado inaweza kuwa kikwazo kikubwa. Tatu, kama uchambuzi wa makosa unadokeza, mbinu inaweza kukosa ujumuishaji wa kina wa maana na ukabilishaji wa kitamaduni zaidi ya tafsiri rahisi ya msamiati, masuala pia yaliyotajwa katika masomo ya uhamisho wa lugha nyingi na Conneau et al. (2020).

Uelewa Unaoweza Kutekelezwa: Kwa watendaji, ujumbe wa haraka ni kujaribu upanuzi wa data ya lugha nyingi kwa kutumia GPT-4 au Claude na muundo huu wa kusukumia kabla ya kuwekeza katika mifuatano ya MT. Kwa watafiti, njia ya mbele ni wazi: 1) Demokrasia ya mbinu kwa kuifanya ifanye kazi na LLM za wazi, zenye ufanisi (kwa mfano, LLaMA, BLOOM). 2) Chunguza usanisi wa seti ya mwanzo—tunaweza kuanzisha seti ya mwanzo yenyewe? 3) Lenga aina za makosa, kukuza warekebishaji wa baadaye au ujifunzaji wa kuimarisha kutoka kwa maoni ya kichanganuzi ili kuboresha matokeo ya LLM, sawa na mbinu za kujifunza zinazotumiwa katika taswira (kwa mfano, hasara ya uthabiti ya mzunguko ya CycleGAN kwa tafsiri isiyo na jozi). Baadaye iko katika mifumo mseto ambapo LLM huzalisha data ya fedha isiyo safi, na mifano ndogo, maalum hufundishwa kusafisha na kuitumia kwa ufanisi.

6. Uchunguzi wa Kesi: Utumizi wa Mfumo

Hali: Kampuni inataka kutumia msaidizi wa sauti kwa ajili ya kuhifadhi miadi ya matibabu katika Kihindi na Kitamil, lakini ina seti ya data ya uchanganuzi wa maana ya Kiingereza tu.

Utumizi wa Mfumo wa LLM-T:

Uundaji wa Mwanzo: Waajiri watafsiri 2 wenye lugha mbili kwa siku 2 ili kutafsiri mifano 100 mbalimbali ya Kiingereza ya kuhifadhi miadi (usemi + muundo wa kimantiki) hadi Kihindi na Kitamil. Hii ndiyo gharama ya mara moja.
Uhandisi wa Kusukumia: Kwa kila mfano 10,000 wa Kiingereza, unda kusukumia na mifano 5 ya mwanzo inayofanana zaidi kimaana nayo (iliyohesabiwa kupitia ujumuishaji wa sentensi), ikifuatiwa na mfano mpya wa Kiingereza.
Uzalishaji wa LLM: Tumia API (kwa mfano, GPT-4 ya OpenAI, Claude ya Anthropic) na uchanganuzi wa kiini (top-p=0.9) ili kuzalisha wagombea 3 wa tafsiri kwa kila mfano.
Kuchuja Data: Fundisha kitambuzi kidogo, cha haraka kwenye data ya mwanzo ili kupima ufasaha na usahihi wa muundo wa kimantiki wa wagombea. Chagua mgombea aliye na alama ya juu zaidi kwa kila mfano ili kuunda seti za mwisho za mafunzo za Kihindi na Kitamil.
Mafunzo ya Kichanganuzi: Rekebisha mfano wa BART au T5 wa lugha nyingi kwenye seti ya data iliyosanisiwa kwa kila lugha.

Mchakato huu unaondoa hitaji la kukodisha mfumo wa MT, kuendeleza kanuni za makadirio ya sehemu, na kushughulikia mwingiliano changamani wa muundo wa tarehe/muda na istilahi ya matibabu katika lugha mbalimbali kwa mikono.

7. Matumizi ya Baadaye na Mwelekeo wa Utafiti

Zaidi ya Uchanganuzi wa Maana: Mfumo huu unatumika moja kwa moja kwa kazi yoyote ya uundaji wa data ya mlolongo-hadi-mlolongo: utambuzi wa majina ya lugha nyingi (maandishi $→$ lebo), maandishi-hadi-SQL, uzalishaji wa msimbo kutoka kwa maelezo ya lugha asilia.
Ujifunzaji Amilifu na Ukuaji wa Seti ya Mwanzo: Unganisha na ujifunzaji amilifu. Tumia kutokuwa na hakika ya kichanganuzi kilichofundishwa kwenye maswali halisi ya mtumiaji ili kuchagua ni mifano gani inapaswa kupatiwa kipaumbele kwa tafsiri ya kibinadamu ili kuongeza seti ya mwanzo kwa njia ya kurudia.
Ukabilishaji wa Kitamaduni na Lahaja: Panua zaidi ya lugha za kawaida hadi lahaja. Seti ya mwanzo katika Kijerumani cha Uswisi inaweza kuanzisha seti ya data ya Kijerumani cha Austria, na LLM ikishughulikia tofauti za msamiati na maneno.
Data ya Sintetiki kwa RLHF: Njia hii inaweza kuzalisha jozi mbalimbali za upendeleo za lugha nyingi kwa mafunzo ya mifano ya malipo katika Ujifunzaji wa Kuimarisha kutoka kwa Maoni ya Kibinadamu (RLHF), muhimu kwa kuunganisha wasaidizi wa AI kimataifa.
Kupunguza Utegemezi wa LLM: Kazi ya baadaye lazima ilenge kwenye kudondosha uwezo huu katika mifano ndogo, maalum ili kupunguza gharama na ucheleweshaji, na kufanya teknolojia ipatikane kwa matumizi ya wakati halisi na makali.

8. Marejeo

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Mifano ya lugha ni wajifunzaji wa mifano michache. Maendeleo katika mifumo ya usindikaji wa habari ya neva, 33, 1877-1901.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2020). Ujifunzaji wa uwakilishi wa lugha nyingi bila usimamizi kwa kiwango kikubwa. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Tafsiri ya picha-hadi-picha isiyo na jozi kwa kutumia mitandao ya hasira yenye uthabiti wa mzunguko. Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (Marejeo ya CycleGAN kwa ujifunzaji unaotegemea uthabiti).
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Kuchunguza mipaka ya uhamisho wa ujifunzaji na mabadilishaji wa umoja wa maandishi-hadi-maandishi. Journal of Machine Learning Research, 21(140), 1-67.
Moradshahi, M., Campagna, G., Semnani, S., Xu, S., & Lam, M. (2020). Kulenga vichanganuzi vya maana vya QA vya ontolojia wazi kwa siku moja kwa kutumia tafsiri ya mashine. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).