Zaɓi Harshe

Sabis na Fassara na Gida don Harsunan da ba a Kula da su ba: Hanyar Koyo mai zurfi

Bincike kan samfuran koyo mai zurfi masu sauƙi, na gida don fassara harsuna masu ƙarancin albarkatu, da aka ɓoye, da na musamman ta amfani da tsarin LSTM-RNN encoder-decoder.
translation-service.org | PDF Size: 0.6 MB
Kima: 4.5/5
Kimarku
Kun riga kun ƙididdige wannan takarda
Murfin Takardar PDF - Sabis na Fassara na Gida don Harsunan da ba a Kula da su ba: Hanyar Koyo mai zurfi

Teburin Abubuwan Ciki

1. Gabatarwa

Wannan binciken yana magance kalubalen fassarar harsunan da ba a kula da su ba, masu ƙarancin albarkatu, da waɗanda aka ɓoye da gangan ta amfani da samfuran koyo mai zurfi masu sauƙi, waɗanda za a iya gudanar da su a gida. Babban dalili ya samo asali ne daga buƙatar sarrafa bayanai masu mahimmanci ko na sirri ba tare da dogaro da APIs na gizo-gizo na jama'a ba, da kuma adana nau'ikan harshe masu tasowa kamar yaren 'yan hacka ("l33t") da kuma sirrin tarihi kamar rubutun madubi na Leonardo da Vinci.

Aikin ya nuna cewa za a iya gina sabis na fassara mai inganci daga ƙananan jimloli biyu 10,000 kawai, ta amfani da tsarin Long Short-Term Memory Recurrent Neural Network (LSTM-RNN) encoder-decoder. Wannan hanyar tana ba da damar fassara ga yarukan musamman da kalmomin ƙwararru waɗanda manyan tsarin kamfanoni ba su iya kaiwa ba a baya.

2. Hanyar Aiki

2.1 Tsarin LSTM-RNN

Babban samfurin shine cibiyar sadarwa mai encoder-decoder tare da sassan LSTM. Encoder yana sarrafa jerin shigarwa (harshen tushe) kuma yana matsawa shi zuwa wani tsayayyen vector na mahallin. Daga nan decoder yana amfani da wannan vector don samar da jerin fitarwa (harshen manufa).

Kwayar LSTM tana magance matsalar gradient da ke ɓacewa a cikin RNNs na yau da kullun ta hanyar tsarin ƙofarta:

Ƙofar Manta: $f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$

Ƙofar Shigarwa: $i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$
$\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$

Sabunta Yanayin Kwaya: $C_t = f_t * C_{t-1} + i_t * \tilde{C}_t$

Ƙofar Fitarwa: $o_t = \sigma(W_o [h_{t-1}, x_t] + b_o)$
$h_t = o_t * \tanh(C_t)$

Inda $\sigma$ shine aikin sigmoid, $*$ yana nuna ninka kashi-kashi, $W$ sune matrices na nauyi, kuma $b$ sune vectors na son kai.

2.2 Tattara Bayanai & Ƙarfafawa

Don harsunan da aka ɓoye kamar "l33t", an rarraba ƙamus a matsayin "Lite", "Matsakaici", da "Wuyar gaske". An ƙera na'urar samar da rubutu don haɗa jimloli biyu sama da miliyan ɗaya, wanda ke da mahimmanci don horar da samfura masu ƙarfi akan ayyuka masu ƙarancin albarkatu.

3. Tsarin Gwaji

3.1 Harsuna & Bayanan Gwaji

Binciken ya kimanta fassara don manyan rukuni biyu:

  • Harsunan da aka ɓoye: Yaren 'yan hacka (l33t) da rubutun baya/madubi.
  • Harsuna 26 da ba a ɓoye ba: Ciki har da Italiyanci, Sinanci Mandarin, da Kabyle (yaren Aljeriya mai masu magana miliyan 5-7 amma ƙarancin tallafin kasuwanci).

An horar da samfura akan bayanan gwaji daga jimloli 10,000 zuwa sama da miliyan ɗaya.

3.2 Ma'aunin Kimantawa

Babban ma'auni: Makin BLEU (Bilingual Evaluation Understudy) [15]. Makin goma tsakanin 0 da 1, yana auna kamanceceniya tsakanin rubutun da aka fassara ta inji da fassarorin da mutum ya yi. Makin da ya fi girma yana nuna aiki mafi kyau.

4. Sakamako & Bincike

4.1 Fassarar Harsunan da aka ɓoye

Binciken ya sami nasarar ƙera mai fassara mai iya magana sosai don yaren 'yan hacka (l33t) tare da girman samfurin ƙasa da megabait 50. Tsarin ya yi tasiri wajen sarrafa maye gurbin ƙamus da bambance-bambancen rubutu na l33t (misali, "elite" -> "l33t", "hacker" -> "h4x0r").

4.2 Aiki a cikin Harsuna 26

An jera samfuran bisa ƙwarewa. Babban binciken:

  • Mafi Nasara: Fassarar Italiyanci ta sami mafi girman makin BLEU.
  • Mafi Kalubale: Sinanci Mandarin, mai yiwuwa saboda tsarin rubutunsa na alama da yanayin sautinsa, wanda ke gabatar da manyan cikas ga samfuran jerin haruffa.
  • Shaidar Shawara don Harshen Musamman: An ƙera samfuri don fassarar Kabyle, yana nuna dacewar hanyar ga harsunan da manyan sabis na kasuwanci suka yi watsi da su.

Aikin ya sake fitar da binciken da aka yi a baya don fassarar Ingilishi-Jamusanci [4,5], yana tabbatar da ingancin tsarin tushe.

5. Cikakkun Bayanai na Fasaha

Girman Samfuri & Ingantacciyar Aiki: Babban gudunmawar shine nunin cewa za a iya samun fassara mai inganci tare da samfuran da ke ƙasa da 50MB, wanda ya sa su dace da gudanarwa a gida, ba tare da haɗin intanet ba akan kayan aiki na yau da kullun.

Ingantaccen Bayanan Horarwa: Tsarin ya tabbatar da tasiri ko da tare da ƙarancin bayanan harshe biyu (ƙasa da jimloli 10,000), yana ƙalubalantar ra'ayin cewa koyaushe ana buƙatar manyan bayanai don ingantaccen fassarar inji.

Gabaɗaya Tsarin: An yi amfani da tsarin LSTM-RNN encoder-decoder ɗaya cikin nasara ga duka harsunan da aka ɓoye da na halitta, yana nuna sassaucinsa.

6. Tsarin Bincike & Nazarin Lamari

Nazarin Lamari: Fassarar Kalmomin Likitanci don Bayanan Lafiya

Yanayi: Cibiyar sadarwar asibiti tana buƙatar fassara bayanan marasa lafiya waɗanda ke ɗauke da kalmomin likitanci na musamman tsakanin Ingilishi da wani yare na yanki don likitocin gida, amma dokokin sirrin bayanai sun hana amfani da APIs na gizo-gizo.

Aiwatar da Tsarin:

  1. Ma'anar Matsala: Gano takamaiman nau'in harshe biyu (misali, Ingilishi <-> kalmomin likitanci na Kabyle) da ƙuntatawa na sirrin bayanai.
  2. Tsara Bayanai: Tattara ko samar da takamaiman tarin kalmomin likitanci da jimloli biyu. Yi amfani da hanyar ƙarfafa rubutu na takarda don faɗaɗa ƙaramin bayanan gwaji.
  3. Horar da Samfuri: Horar da samfurin LSTM-RNN mai ƙarami a gida akan sabar masu tsaro na asibitin ta amfani da bayanan da aka tsara.
  4. Aiwatarwa & Tabbatarwa: Aiwatar da samfurin da ke ƙasa da 50MB akan na'urorin aiki na gida. Tabbatar da ingancin fassarar tare da ƙwararrun likitoci ta amfani da makin BLEU da kimantawar mutum da aka mayar da hankali kan daidaiton asibiti.

Wannan tsarin yana ƙetare dogaro da gizo-gizo da haɗarin sirrin bayanai, yana amfani da hanyar takarda kai tsaye ga wani yanki na gaske, mai haɗari.

7. Aikace-aikace na Gaba & Jagorori

Hanyar tana buɗe hanyoyi masu ban sha'awa da yawa:

  • Fassarar Yanki na Musamman: Kalmomin shari'a, fasaha, da kimiyya inda daidaito ke da mahimmanci kuma bayanai suna da mahimmanci.
  • Kiyaye Harsuna & Yaruka masu Haɗari: Ƙirƙirar kayan aikin fassara don al'ummomin harshe masu ƙarancin albarkatun dijital.
  • Gano ɓoyayyen Bayanai & Fassara cikin Lokaci: Tsare-tsare don sa ido da fassara ƙwararren yare, lambobi, da sirri a cikin al'ummomin kan layi ko don dalilai na tsaro na dijital.
  • Haɗawa da Lissafin Gefe: Aiwatar da samfura masu sauƙi sosai akan na'urorin hannu don fassara gaba ɗaya ba tare da haɗin intanet ba, wanda ke da mahimmanci ga aikin filin a wuraren da ke da ƙarancin haɗin kai.
  • Faɗaɗa Tsakanin Nau'i: Daidaita tsarin mai sauƙi don fassarar magana-zuwa-magana a cikin saitunan masu ƙarancin albarkatu.

8. Nassoshi

  1. [1] Kalubalen Manyan Kamfanonin Software a cikin MT (abin da ake nufi).
  2. [2-3] Nassoshi na yaren 'yan hacka "Leet" ko "l33t".
  3. [4] Samfurin cibiyar sadarwar jijiya don nau'ikan Ingilishi-Jamusanci.
  4. [5] Nunin farko na samfurin da aka ambata.
  5. [6-8] Takaddun tushe na LSTM da RNN (Hochreiter & Schmidhuber, 1997; wasu).
  6. [9] Gabaɗaya vs. haddacewa a cikin samfuran jerin abubuwa.
  7. [10-14] Aikace-aikacen fassara na musamman da ba za a iya kaiwa ba.
  8. [15] Papineni, K., da sauransu. (2002). BLEU: hanyar kimanta fassarar inji ta atomatik. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).
  9. Tushen Waje: Vaswani, A., da sauransu. (2017). Hankali Shine Duk Abin da Kuke Bukata. Advances in Neural Information Processing Systems (NeurIPS). Duk da yake wannan takarda tana amfani da LSTMs, tsarin Transformer da aka ambata a nan yana wakiltar babban canji na gaba a cikin NMT, yana nuna ciniki tsakanin ingantaccen aikin LSTM na tsoho da mafi kyawun aikin Transformer a sikeli.
  10. Tushen Waje: Taswirar UNESCO na Harsunan Duniya cikin Haɗari. Yana ba da mahallin girman matsalar "harsunan da ba a kula da su ba", yana lissafin dubban harsuna da ke cikin haɗarin ɓacewa, yana jaddada buƙatar al'umma don irin wannan binciken.

9. Bincike na Asali & Sharhin Kwararru

Babban Fahimta: Wannan takarda ƙwararren hack ne a mafi kyawun ma'ana. Tana gano wani muhimmin gibi a kasuwa—fassara mai tsaro, na gida don harsuna na musamman—kuma tana kai hari ba tare da Transformer na ƙididdiga biliyan na baya-bayan nan ba, amma tare da LSTM mai ƙayyadaddun ra'ayi. Marubutan ba sa ƙoƙarin cin nasara a yaƙin ma'auni na MT na gabaɗaya; suna magance ƙuntatawa (sirri, farashi, ƙarancin bayanai) waɗanda ke sa waɗannan samfuran SOTA ba su da amfani. Fahimtarsu cewa "mai sauƙi" da "mai inganci" ba su da karo ga juna don ayyuka masu ƙuntatawa shine ƙwaƙƙwaran magana mai ƙarfi ga akidar masana'antu na "mafi girma shine mafi kyau".

Kwararren Tsari: Hujja tana da gamsarwa. Fara da matsala ta gaske, wacce ba a warware ta ba (bayanai masu mahimmanci a cikin harsuna masu ƙarancin albarkatu). Nuna mafita na tushe (LSTM encoder-decoder) akan aikin da aka sani (Ingilishi-Jamusanci) don kafa aminci. Sannan, juya zuwa yanki na sabon abu (harsunan da aka ɓoye), tabbatar da sassaucin tsarin. A ƙarshe, gabaɗaya da'awar ta hanyar jera aiki a cikin harsuna 26 da ƙirƙirar samfuri na sabis don wanda ba a kula da shi ba (Kabyle). Gudun daga tabbatarwa zuwa ƙirƙira zuwa nunawa ba shi da iska.

Ƙarfi & Kurakurai: Ƙarfin ba shi da shakka. Samfurin da ke ƙasa da 50MB ana iya gudanar da shi a ko'ina, wani fasali da sau da yawa ake yin watsi da shi a cikin ilimi. Dabarun ƙarfafa bayanai don "l33t" yana da hazaka musamman, yana magance matsalar farawa mai sanyi kai tsaye. Duk da haka, kuskure yana cikin hangen nesa. Duk da yake sun ambaci hawan Transformer, ba su cika fuskantar yadda bambance-bambancen Transformer masu inganci (kamar MobileBERT ko samfuran da aka narkar) ke bin wannan ƙaramin yanki mai sauƙi ba yanzu. LSTM, duk da yake yana da inganci, an fi maye gurbinsa don samfurin jerin abubuwa saboda iyakancewa a cikin daidaitawa da sarrafa dogon lokaci dogaro, kamar yadda aka yi cikakken bayani a cikin takarda mai mahimmanci "Hankali Shine Duk Abin da Kuke Bukata". Makinsu na BLEU, duk da yake yana da kyau ga ƙuntatawa, mai yiwuwa wani tsarin Transformer mai inganci na zamani mai girman iri ɗaya zai fi shi. Aikin yana jin kamar ƙarshe mai haske don zamanin LSTM, maimakon farkon sabon layi.

Fahimta Mai Aiki: Ga masu aiki, wannan shiri ne. Abin da za a ɗauka nan take shine bincika buƙatun fassarar ƙungiyar ku don yanayin "binciken bin doka"—duk inda bayanai ba za su iya barin hanyar sadarwa na gida ba. Hanyar ana iya maimaita ta. Ga masu bincike, kalubalen a bayyane yake: sake aiwatar da falsafar wannan aikin tare da tsarin zamani masu inganci. Shin samfurin Transformer da aka narkar da megabait 50 zai fi wannan LSTM aiki akan Kabyle? Ƙimar ainihin takarda na iya kasancewa cikin ayyana ma'auni don guguwar gaba na MT mai inganci sosai, mai kiyaye sirri. A ƙarshe, ga masu ba da kuɗi da ƙungiyoyi masu zaman kansu, wannan aikin yana tallafawa manufofin UNESCO na kiyaye harshe kai tsaye. Kayan aikin da aka kwatanta anan za a iya haɗa su don taimaka wa al'ummomi su gina nasu kayan aikin fassarar dijital na farko, wani nau'i mai ƙarfi na ƙarfafa fasaha.