बड़ी भाषा मॉडल का उपयोग करके बहुभाषी अर्थ विश्लेषकों का बूटस्ट्रैपिंग: विश्लेषण और ढांचा

1. परिचय एवं अवलोकन

यह कार्य बहुभाषी एनएलपी में एक महत्वपूर्ण बाधा का समाधान करता है: कम-संसाधन भाषाओं के लिए उच्च-गुणवत्ता, कार्य-विशिष्ट लेबल वाला डेटा बनाना। पारंपरिक अनुवाद-प्रशिक्षण प्रतिमान मशीन अनुवाद सेवाओं पर निर्भर करता है, जो महंगी हैं, डोमेन बेमेल से ग्रस्त हो सकती हैं, और अलग तार्किक-रूप प्रक्षेपण की आवश्यकता होती है। लेखक एलएलएम-टी प्रस्तावित करते हैं, एक नवीन पाइपलाइन जो बड़ी भाषा मॉडल (एलएलएम) की कम-शॉट क्षमताओं का लाभ उठाकर बहुभाषी अर्थ विश्लेषण डेटासेट को बूटस्ट्रैप करती है। मानव-अनूदित उदाहरणों के एक छोटे सीड सेट को देखते हुए, एक एलएलएम को अंग्रेजी (उक्ति, तार्किक-रूप) जोड़े को लक्ष्य भाषा में अनुवाद करने के लिए प्रॉम्प्ट किया जाता है, जिससे प्रभावी रूप से एक अर्थ पार्सर को फाइन-ट्यून करने के लिए प्रशिक्षण डेटा उत्पन्न होता है।

मुख्य अंतर्दृष्टियाँ

एलएलएम संदर्भ-आधारित शिक्षण के माध्यम से जटिल, संरचित अनुवाद (उक्ति + तार्किक रूप) प्रभावी ढंग से कर सकते हैं।
यह विधि महंगी, सामान्य-उद्देश्य एमटी प्रणालियों और नाजुक प्रक्षेपण नियमों पर निर्भरता कम करती है।
दो प्रमुख डेटासेट में 50 भाषाओं में से 41 पर मजबूत अनुवाद-प्रशिक्षण आधार रेखाओं से बेहतर प्रदर्शन करती है।

2. पद्धति: एलएलएम-टी पाइपलाइन

मूल नवाचार प्रॉम्प्ट किए गए एलएलएम का उपयोग करके एक व्यवस्थित डेटा अनुवाद पाइपलाइन है।

2.1 सीड डेटा संग्रह

स्रोत डेटासेट $D_{eng} = \{(x^i_{eng}, y^i_{eng})\}$ से अंग्रेजी उदाहरणों के एक छोटे सेट को लक्ष्य भाषा $tgt$ में मैन्युअल रूप से अनुवादित किया जाता है ताकि एक सीड सेट $S_{tgt}$ बनाया जा सके। यह एलएलएम के लिए संदर्भ-आधारित उदाहरण प्रदान करता है, जिससे उसे संयुक्त उक्ति और तार्किक-रूप अनुवाद का कार्य सिखाया जाता है।

2.2 अनुवाद के लिए संदर्भ-आधारित प्रॉम्प्टिंग

प्रत्येक नए अंग्रेजी उदाहरण $(x_{eng}, y_{eng})$ के लिए, $S_{tgt}$ से $k$ उदाहरणों का एक उपसमुच्चय चुना जाता है (जैसे, शब्दार्थ समानता के माध्यम से) और एक प्रॉम्प्ट के रूप में स्वरूपित किया जाता है। फिर एलएलएम (जैसे, पाल्म) को संबंधित लक्ष्य भाषा जोड़ी $(\hat{x}_{tgt}, \hat{y}_{tgt})$ उत्पन्न करने का कार्य सौंपा जाता है।

प्रॉम्प्ट संरचना: [सीड उदाहरण 1: (x_tgt, y_tgt)] ... [सीड उदाहरण k] [इनपुट: (x_eng, y_eng)] [आउटपुट: ]

2.3 नाभिक नमूनाकरण द्वारा गुणवत्ता नियंत्रण

विविधता और गुणवत्ता बढ़ाने के लिए, लेखक जनन के दौरान नाभिक नमूनाकरण (टॉप-$p$) का उपयोग करते हैं, प्रति उदाहरण कई उम्मीदवार अनुवाद उत्पन्न करते हैं। फिर अंतिम आउटपुट चुनने के लिए एक चयन या समुच्चय तंत्र (जैसे, पार्सर आत्मविश्वास या स्थिरता के आधार पर) लागू किया जा सकता है, जिससे सिंथेटिक डेटासेट $\hat{D}_{tgt}$ बनता है।

3. तकनीकी विवरण एवं गणितीय सूत्रीकरण

इस प्रक्रिया को सशर्त जनन के रूप में परिभाषित किया जा सकता है। एक अंग्रेजी जोड़ी $(x_e, y_e)$ और एक सीड सेट $S_t$ को देखते हुए, मॉडल मैपिंग सीखता है:

$P(x_t, y_t | x_e, y_e, S_t) = \prod_{i=1}^{L} P(w_i | w_{

जहाँ $(x_t, y_t)$ लक्ष्य अनुक्रम है और जनन नाभिक नमूनाकरण का उपयोग करता है: $p' = \frac{p}{\sum_{w \in V^{(p)}} p(w)}$ $V^{(p)}$ के लिए, सबसे छोटा समुच्चय जहाँ $\sum_{w \in V^{(p)}} P(w) \ge p$। मुख्य डिजाइन विकल्पों में $P(x_t, y_t)$ को अधिकतम करने के लिए सीड चयन, प्रॉम्प्ट स्वरूपण और डिकोडिंग रणनीति शामिल है।

4. प्रायोगिक परिणाम एवं विश्लेषण

4.1 डेटासेट: एमटॉप एवं मैसिव

प्रयोग दो सार्वजनिक अर्थ विश्लेषण डेटासेट पर किए गए जो विविध डोमेन (जैसे, अलार्म, नेविगेशन, शॉपिंग) में इरादों और स्लॉट को कवर करते हैं।

एमटॉप: 6 डोमेन, 11 इरादे, 11 भाषाएं कवर करता है।
मैसिव: 18 डोमेन, 60 इरादे, 51 भाषाएं (कई कम-संसाधन वाली भी) कवर करता है।

यह पैमाना बहुभाषी सामान्यीकरण के लिए एक मजबूत परीक्षण स्थल प्रदान करता है।

4.2 प्रदर्शन तुलना

प्राथमिक आधार रेखा एक मजबूत अनुवाद-प्रशिक्षण दृष्टिकोण है जो अत्याधुनिक एमटी प्रणाली (जैसे, गूगल ट्रांसलेट) का उपयोग करता है और उसके बाद तार्किक रूपों का अनुमानित या सीखा हुआ प्रक्षेपण करता है। एलएलएम-टी विधि महत्वपूर्ण लाभ दर्शाती है:

प्रदर्शन सारांश

एलएलएम-टी 50 भाषाओं में से 41 पर अनुवाद-प्रशिक्षण से बेहतर प्रदर्शन करती है। औसत सुधार उल्लेखनीय है, विशेष रूप से भाषाई रूप से दूर या कम-संसाधन वाली भाषाओं के लिए जहां मानक एमटी गुणवत्ता कम हो जाती है। लाभ इरादा सटीकता और स्लॉट एफ1 स्कोर दोनों में सुसंगत हैं।

4.3 प्रमुख निष्कर्ष एवं विच्छेदन अध्ययन

सीड सेट आकार एवं गुणवत्ता: प्रदर्शन अपेक्षाकृत कम संख्या में उच्च-गुणवत्ता वाले सीड उदाहरणों (जैसे, ~50-100) के साथ संतृप्त हो जाता है, जो डेटा दक्षता प्रदर्शित करता है।
प्रॉम्प्ट डिजाइन: प्रॉम्प्ट में स्रोत (अंग्रेजी) और लक्ष्य अनुवाद दोनों को शामिल करना महत्वपूर्ण है। $(x, y)$ स्वरूप केवल $x$ की तुलना में अधिक प्रभावी है।
मॉडल पैमाना: बड़े एलएलएम (जैसे, 540बी पैरामीटर पाल्म) छोटे मॉडलों की तुलना में काफी बेहतर अनुवाद देते हैं, जो इस जटिल कार्य में मॉडल क्षमता की भूमिका को उजागर करता है।
त्रुटि विश्लेषण: सामान्य त्रुटियों में संस्कृति-विशिष्ट इकाइयों (तिथियां, उत्पाद) के लिए स्लॉट मूल्य अनुवाद और जटिल प्रश्नों के लिए संरचनात्मक सामान्यीकरण शामिल हैं।

5. विश्लेषण ढांचा: मूल अंतर्दृष्टि एवं आलोचना

मूल अंतर्दृष्टि: पेपर की सफलता केवल एलएलएम का उपयोग अनुवाद के लिए करने के बारे में नहीं है; यह डेटासेट निर्माण को एक कम-शॉट, संदर्भ-आधारित जनन कार्य के रूप में पुनः परिभाषित करने के बारे में है। यह एमटी + अलग प्रक्षेपण की पूरी नाजुक पाइपलाइन को दरकिनार कर देता है, जो अक्सर त्रुटि प्रसार और डोमेन बेमेल के कारण विफल हो जाती है। यह अंतर्दृष्टि कि एक एलएलएम भाषाओं में प्राकृतिक भाषा विविधताओं और उनके औपचारिक प्रतिनिधित्व के बीच की मैपिंग को आंतरिक रूप से समझ सकता है, गहन है। यह "भाषा मॉडल कम-शॉट शिक्षार्थी हैं" (ब्राउन एट अल., 2020) जैसे कार्यों के निष्कर्षों के साथ संरेखित है लेकिन इसे एक संरचित, बहुभाषी डेटा संश्लेषण समस्या पर लागू करता है।

तार्किक प्रवाह: तर्क स्पष्ट है: 1) अनुवाद-प्रशिक्षण महंगा और नाजुक है। 2) एलएलएम कम-शॉट, क्रॉस-लिंग्वल पैटर्न मिलान में उत्कृष्ट हैं। 3) इसलिए, प्रशिक्षण के लिए आवश्यक (उक्ति, तार्किक-रूप) जोड़े सीधे उत्पन्न करने के लिए एलएलएम का उपयोग करें। 50 भाषाओं पर प्रयोग परिसर के लिए भारी साक्ष्य प्रदान करते हैं।

शक्तियाँ एवं कमियाँ: प्रमुख शक्ति मानव एनोटेशन लागत में नाटकीय कमी और केवल एक छोटे सीड सेट के साथ किसी भी भाषा के अनुकूल होने की लचीलापन है - कम-संसाधन एनएलपी के लिए एक गेम-चेंजर। प्रदर्शन लाभ प्रभावशाली और व्यापक हैं। हालांकि, इस दृष्टिकोण में गंभीर कमियां हैं। पहला, यह पूरी तरह से एक विशाल, बंद एलएलएम (पाल्म) की स्वामित्व वाली क्षमताओं पर निर्भर है। पुनरुत्पादन, लागत और नियंत्रण गंभीर चिंताएं हैं। दूसरा, यह एक छोटे लेकिन परिपूर्ण सीड सेट की उपलब्धता मानता है, जो वास्तव में कम-संसाधन भाषाओं के लिए अभी भी एक महत्वपूर्ण बाधा हो सकती है। तीसरा, जैसा कि त्रुटि विश्लेषण संकेत देता है, यह विधि गहन शब्दार्थ संरचनात्मकता और सरल शाब्दिक अनुवाद से परे सांस्कृतिक अनुकूलन के साथ संघर्ष कर सकती है, जैसी समस्याएं कोनॉ एट अल. (2020) द्वारा क्रॉस-लिंग्वल ट्रांसफर अध्ययनों में भी नोट की गई हैं।

कार्रवाई योग्य अंतर्दृष्टियाँ: व्यवसायियों के लिए, तत्काल निष्कर्ष यह है कि एमटी पाइपलाइन में निवेश करने से पहले इस प्रॉम्प्टिंग टेम्पलेट के साथ जीपीटी-4 या क्लॉड का उपयोग करके बहुभाषी डेटा विस्तार का प्रोटोटाइप बनाया जाए। शोधकर्ताओं के लिए, आगे का रास्ता स्पष्ट है: 1) विधि को लोकतांत्रिक बनाएं इसे कुशल, ओपन-सोर्स एलएलएम (जैसे, ल्लामा, ब्लूम) के साथ काम करने योग्य बनाकर। 2) सीड सेट संश्लेषण की जांच करें - क्या हम सीड सेट को स्वयं बूटस्ट्रैप कर सकते हैं? 3) त्रुटि मोड पर ध्यान केंद्रित करें, एलएलएम आउटपुट को परिष्कृत करने के लिए पोस्ट-हॉक करेक्टर या पार्सर प्रतिक्रिया से सुदृढीकरण शिक्षा विकसित करना, जो दृष्टि में उपयोग किए जाने वाले स्व-प्रशिक्षण दृष्टिकोण (जैसे, युग्मित अनुवाद के लिए साइकलजीएएन का चक्र स्थिरता नुकसान) के समान है। भविष्य संकर प्रणालियों में निहित है जहां एलएलएम शोर वाला सिल्वर डेटा उत्पन्न करते हैं, और छोटे, विशेष मॉडल इसे साफ करने और कुशलता से उपयोग करने के लिए प्रशिक्षित होते हैं।

6. केस स्टडी: ढांचे का अनुप्रयोग

परिदृश्य: एक कंपनी हिंदी और तमिल में चिकित्सा अपॉइंटमेंट बुक करने के लिए एक वॉयस असिस्टेंट तैनात करना चाहती है, लेकिन उसके पास केवल एक अंग्रेजी अर्थ विश्लेषण डेटासेट है।

एलएलएम-टी ढांचे का अनुप्रयोग:

सीड निर्माण: 2 दिनों के लिए 2 द्विभाषी अनुवादकों को किराए पर लें ताकि 100 विविध अंग्रेजी अपॉइंटमेंट-बुकिंग उदाहरणों (उक्ति + तार्किक रूप) का हिंदी और तमिल में अनुवाद किया जा सके। यह एकमुश्त लागत है।
प्रॉम्प्ट इंजीनियरिंग: 10,000 अंग्रेजी उदाहरणों में से प्रत्येक के लिए, उसके सबसे अधिक शब्दार्थ समान 5 सीड उदाहरणों (वाक्य एम्बेडिंग के माध्यम से गणना) के साथ एक प्रॉम्प्ट बनाएं, उसके बाद नया अंग्रेजी उदाहरण दें।
एलएलएम जनन: नाभिक नमूनाकरण (टॉप-पी=0.9) के साथ एक एपीआई (जैसे, ओपनएआई का जीपीटी-4, एंथ्रोपिक का क्लॉड) का उपयोग करके प्रति उदाहरण 3 उम्मीदवार अनुवाद उत्पन्न करें।
डेटा फ़िल्टरिंग: उम्मीदवारों की प्रवाहशीलता और तार्किक-रूप शुद्धता को स्कोर करने के लिए सीड डेटा पर एक छोटा, तेज़ वर्गीकरणकर्ता प्रशिक्षित करें। अंतिम हिंदी और तमिल प्रशिक्षण सेट बनाने के लिए प्रत्येक उदाहरण के लिए उच्चतम स्कोर वाले उम्मीदवार का चयन करें।
पार्सर प्रशिक्षण: प्रत्येक भाषा के लिए संश्लेषित डेटासेट पर एक बहुभाषी बार्ट या टी5 मॉडल को फाइन-ट्यून करें।

यह प्रक्रिया एक एमटी प्रणाली को लाइसेंस देने, स्लॉट प्रक्षेपण नियम विकसित करने और भाषाओं में तिथि/समय प्रारूप और चिकित्सा शब्दावली के जटिल अंतर्क्रिया को मैन्युअल रूप से संभालने की आवश्यकता को समाप्त कर देती है।

7. भविष्य के अनुप्रयोग एवं शोध दिशाएं

अर्थ विश्लेषण से परे: यह ढांचा सीधे किसी भी अनुक्रम-से-अनुक्रम डेटा निर्माण कार्य के लिए लागू है: बहुभाषी नामित इकाई पहचान (पाठ $→$ टैग), टेक्स्ट-टू-एसक्यूएल, प्राकृतिक भाषा विवरणों से कोड जनन।
सक्रिय शिक्षण एवं सीड सेट विकास: सक्रिय शिक्षण के साथ एकीकृत करें। वास्तविक उपयोगकर्ता प्रश्नों पर प्रशिक्षित पार्सर की अनिश्चितता का उपयोग यह चुनने के लिए करें कि किन उदाहरणों को मानव अनुवाद के लिए प्राथमिकता दी जानी चाहिए ताकि सीड सेट को पुनरावृत्त रूप से बढ़ाया जा सके।
सांस्कृतिक एवं बोली अनुकूलन: मानक भाषाओं से परे बोलियों तक विस्तारित करें। स्विस जर्मन में एक सीड सेट ऑस्ट्रियन जर्मन के लिए एक डेटासेट को बूटस्ट्रैप कर सकता है, जिसमें एलएलएम शाब्दिक और वाक्यांश विविधताओं को संभालता है।
आरएलएचएफ के लिए सिंथेटिक डेटा: यह विधि मानव प्रतिक्रिया से सुदृढीकरण शिक्षा (आरएलएचएफ) में पुरस्कार मॉडल प्रशिक्षित करने के लिए विविध, बहुभाषी प्राथमिकता जोड़े उत्पन्न कर सकती है, जो वैश्विक स्तर पर एआई सहायकों को संरेखित करने के लिए महत्वपूर्ण है।
एलएलएम निर्भरता कम करना: भविष्य के कार्य को लागत और विलंबता कम करने के लिए इस क्षमता को छोटे, विशेष मॉडलों में समाहित करने पर ध्यान केंद्रित करना चाहिए, ताकि प्रौद्योगिकी वास्तविक समय और एज अनुप्रयोगों के लिए सुलभ हो सके।

8. संदर्भ

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2020). Unsupervised cross-lingual representation learning at scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (CycleGAN reference for consistency-based learning).
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1-67.
Moradshahi, M., Campagna, G., Semnani, S., Xu, S., & Lam, M. (2020). Localizing open-ontology QA semantic parsers in a day using machine translation. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).