अनुवाद स्मृतियों के माध्यम से बड़े भाषा मॉडल अनुवादकों का संवर्धन

1. परिचय

यह शोध पत्र बड़े भाषा मॉडल (एलएलएम) की उभरती हुई संदर्भ-आधारित शिक्षण क्षमताओं का लाभ उठाकर मशीनी अनुवाद (एमटी) को बेहतर बनाने के एक नवीन दृष्टिकोण की जांच करता है। मूल आधार यह है कि अनुवाद स्मृतियाँ (टीएम) - पिछले मानवीय अनुवादों के डेटाबेस - एलएलएम के लिए अत्यधिक प्रभावी फ्यू-शॉट प्रॉम्प्ट के रूप में कार्य कर सकती हैं, जो उन्हें आर्किटेक्चर में बदलाव या फाइन-ट्यूनिंग की आवश्यकता के बिना अधिक सटीक और डोमेन-उपयुक्त अनुवाद उत्पन्न करने के लिए मार्गदर्शन करती हैं।

यह कार्य पूर्व की उन विधियों के विरुद्ध स्वयं को स्थापित करता है जिनमें या तो तंत्रिका मशीनी अनुवाद (एनएमटी) मॉडल आर्किटेक्चर को संशोधित करने या अलग अनुवाद ज्ञान आधार बनाने की आवश्यकता होती थी। इसके विपरीत, प्रस्तावित विधि, बड़े भाषा मॉडल के लिए अनुवाद स्मृति प्रॉम्प्टिंग (टीएमपी-एलएम), एक हल्की-फुल्की, केवल प्रॉम्प्टिंग तकनीक है जो एलएलएम की अपने संदर्भ विंडो में प्रस्तुत निर्देशों को समझने और उनका पालन करने की अंतर्निहित क्षमता का लाभ उठाती है।

2. पद्धति: एलएलएम के लिए अनुवाद स्मृति प्रॉम्प्टिंग (टीएमपी-एलएम)

टीएमपी-एलएम एक सरल परंतु शक्तिशाली ढांचा है जो अनुवाद क्वेरी से पहले प्रासंगिक टीएम उदाहरणों को जोड़कर एलएलएम में अनुवाद ज्ञान को सम्मिलित करता है। इस प्रक्रिया में शामिल है: 1) किसी दिए गए इनपुट वाक्य के लिए टीएम से समान स्रोत वाक्य और उनके अनुवाद पुनर्प्राप्त करना। 2) इन (स्रोत, लक्ष्य) जोड़ियों को एक विशिष्ट टेम्पलेट के अनुसार एक सुसंगत प्रॉम्प्ट में स्वरूपित करना। 3) इस प्रॉम्प्ट को, उसके बाद नए स्रोत वाक्य के साथ, एलएलएम को अनुवाद के लिए प्रस्तुत करना।

2.1. प्रॉम्प्ट टेम्पलेट डिज़ाइन

इस पत्र में एलएलएम को अनुवाद कार्य और उदाहरण प्रभावी ढंग से संप्रेषित करने के लिए विभिन्न प्रॉम्प्ट शैलियों का अन्वेषण किया गया है। दो प्राथमिक टेम्पलेट पर प्रकाश डाला गया है:

निर्देशात्मक टेम्पलेट (INSTRUCTION): प्राकृतिक भाषा निर्देशों का उपयोग करता है। उदाहरण के लिए: "यदि 'X1' का अंग्रेजी से फ्रेंच में अनुवाद 'Y1' है और 'X2' का अनुवाद 'Y2' है, तो 'X_new' का अनुवाद क्या है? केवल अनुवाद परिणाम आवश्यक हैं।"
संरचित टेम्पलेट (CODE): अधिक औपचारिक, कुंजी-मूल्य जोड़ी संरचना का उपयोग करता है। उदाहरण के लिए: "[src-lang]=[X1] [tgt-lang]=[Y1] [src-lang]=[X2] [tgt-lang]=[Y2] [src-lang]=[X_new] [tgt-lang]="

टेम्पलेट का चुनाव एलएलएम के प्रदर्शन पर महत्वपूर्ण प्रभाव डालता है, जहां संरचित टेम्पलेट अक्सर अस्पष्टता को कम करके अधिक सुसंगत आउटपुट प्रदान करते हैं।

2.2. टीएमपी-एलएम ढांचा

मूल तंत्र को सारगर्भित किया जा सकता है। किसी इनपुट वाक्य $x$ के लिए, एक टीएम पुनर्प्राप्ति फ़ंक्शन $R(x)$, $k$ सबसे समान स्रोत-लक्ष्य जोड़े $(x_i^{tm}, y_i^{tm})$ ढूंढता है। एक प्रॉम्प्ट निर्माता फ़ंक्शन $C(\{(x_i^{tm}, y_i^{tm})\}_{i=1}^k, x)$ इन्हें एक अंतिम प्रॉम्प्ट $P$ में स्वरूपित करता है। एलएलएम, जिसे $M$ द्वारा दर्शाया गया है, फिर अनुवाद उत्पन्न करता है: $\hat{y} = M(P)$।

प्रभावशीलता एलएलएम की संदर्भ-आधारित सादृश्य तर्क करने की क्षमता पर निर्भर करती है - प्रदान किए गए उदाहरणों में पैटर्न की पहचान करना और इसे नए क्वेरी पर लागू करना।

3. प्रायोगिक सेटअप और परिणाम

3.1. डेटासेट और आधार रेखाएं

प्रयोग कई भाषाओं (जैसे, अंग्रेजी-जर्मन, अंग्रेजी-चीनी) और डोमेन (कानूनी, आईटी, चिकित्सा) में अनुवाद कार्यों पर किए गए। प्राथमिक एलएलएम के रूप में OpenAI का text-davinci-003 उपयोग किया गया। आधार रेखाओं में बड़े द्विभाषी कोर्पोरा पर प्रशिक्षित मजबूत, अच्छी तरह से फाइन-ट्यून की गई डोमेन-विशिष्ट एनएमटी प्रणालियाँ शामिल थीं।

प्रायोगिक मुख्य बिंदु

मॉडल: जीपीटी-3.5 (text-davinci-003)
मूल्यांकन मापदंड: ब्ल्यू स्कोर
मुख्य तुलना: टीएमपी-एलएम बनाम अत्याधुनिक डोमेन-ट्यून्ड एनएमटी

3.2. प्रमुख परिणाम और विश्लेषण

परिणाम चौंकाने वाले थे:

भारी ब्ल्यू लाभ: उच्च-गुणवत्ता वाले टीएम प्रॉम्प्ट का उपयोग करने से विभिन्न कार्यों में एलएलएम के ज़ीरो-शॉट अनुवाद प्रदर्शन में 20 से 30 ब्ल्यू अंकों की वृद्धि हुई। यह एक एलएलएम को एक औसत अनुवादक से एक अत्यधिक सक्षम अनुवादक में बदल देता है।
अत्याधुनिक एनएमटी के साथ प्रतिस्पर्धा: प्रॉम्प्ट किए गए एलएलएम का प्रदर्शन बड़े पैमाने पर इन-डोमेन डेटा पर विशेष रूप से प्रशिक्षित अत्याधुनिक एनएमटी प्रणालियों के प्रदर्शन के बराबर, और कभी-कभी उससे भी बेहतर था। यह एक महत्वपूर्ण खोज है, क्योंकि यह सुझाव देती है कि उचित प्रॉम्प्टिंग के साथ एलएलएम, कार्य-विशिष्ट प्रशिक्षण के बिना, विशेष मॉडलों के प्रदर्शन से मेल खा सकते हैं।
टेम्पलेट संवेदनशीलता: संरचित (CODE) टेम्पलेट ने आम तौर पर प्राकृतिक भाषा (INSTRUCTION) टेम्पलेट की तुलना में अधिक विश्वसनीय और उच्च-गुणवत्ता वाले अनुवाद दिए, जो सटीक प्रॉम्प्ट इंजीनियरिंग के महत्व को रेखांकित करता है।

चार्ट विवरण (अंतर्निहित): एक बार चार्ट प्रत्येक भाषा जोड़ी/डोमेन के लिए तीन समूह दिखाएगा: 1) एलएलएम ज़ीरो-शॉट (कम ब्ल्यू), 2) एलएलएम + टीएमपी-एलएम (बहुत उच्च ब्ल्यू), 3) अत्याधुनिक एनएमटी आधार रेखा (उच्च ब्ल्यू, समूह 2 के समान)। समूह 2 और 3 के लिए बार निकटता से मेल खाएंगे, दोनों समूह 1 से काफी ऊपर होंगे।

4. तकनीकी विश्लेषण और मूल अंतर्दृष्टि

मूल अंतर्दृष्टि: इस पत्र की क्रांतिकारी खोज यह है कि एक एलएलएम की अनुवाद क्षमता स्थिर नहीं है बल्कि उसके संदर्भ का एक कार्य है। कच्चा मॉडल एक खराब अनुवादक है, लेकिन जब इसके संदर्भ को प्रासंगिक, उच्च-निष्ठा वाले अनुवाद उदाहरणों (टीएम) से भर दिया जाता है, तो यह विशेष रूप से बनाए गए एनएमटी प्रणालियों के बराबर प्रदर्शन को अनलॉक कर देता है। यह मौलिक रूप से एलएलएम को स्थैतिक मॉडल से गतिशील, संदर्भ-प्रोग्रामेबल अनुवाद इंजन के रूप में पुनः परिभाषित करता है। यह स्टैनफोर्ड के फाउंडेशन मॉडल पर शोध केंद्र के शोधकर्ताओं द्वारा उजागर किए गए व्यापक प्रतिमान बदलाव के साथ मेल खाता है, जो मानते हैं कि किसी मॉडल का "ज्ञान" और "क्षमताएं" तेजी से स्थिर वजनों के अलावा प्रॉम्प्ट-आधारित सक्रियता द्वारा परिभाषित की जा रही हैं।

तार्किक प्रवाह: तर्क सुंदर और सम्मोहक है। 1) एलएलएम में मजबूत संदर्भ-आधारित शिक्षण और निर्देश-अनुसरण क्षमताएं होती हैं (जैसा कि ओयांग एट अल. के "Training language models to follow instructions with human feedback" जैसे कार्यों में प्रदर्शित किया गया है)। 2) अनुवाद एक सुस्पष्ट कार्य है जिसे उदाहरणों के माध्यम से वर्णित किया जा सकता है। 3) टीएम संपादित, उच्च-गुणवत्ता वाले उदाहरण जोड़े हैं। 4) इसलिए, टीएम को संदर्भ-आधारित उदाहरणों के रूप में प्रस्तुत करने से अनुवाद गुणवत्ता में नाटकीय रूप से सुधार होना चाहिए, और होता भी है। तर्क दोषरहित है और प्रायोगिक साक्ष्य मजबूत है।

शक्तियाँ और कमियाँ: शक्ति निर्विवाद है: एक सरल, गैर-आक्रामक विधि से भारी लाभ मिलता है। यह मौजूदा टीएम संपत्तियों और ऑफ-द-शेल्फ एलएलएम का लाभ उठाकर उच्च-गुणवत्ता वाले एमटी को लोकतांत्रिक बनाता है। हालाँकि, कमियाँ निर्भरताओं में हैं। पहला, यह पुनर्प्राप्त टीएम मिलानों की गुणवत्ता और प्रासंगिकता पर गंभीर रूप से निर्भर है - अंदर कचरा, बाहर कचरा। दूसरा, यह सभी एलएलएम सीमाओं को विरासत में लेता है: लागत, विलंबता, और संदर्भ विंडो बाधाएँ (लियू एट अल. द्वारा पहचानी गई "Lost-in-the-middle" समस्या की तरह)। तीसरा, जैसा कि पत्र संकेत देता है, विधि नाजुक है; गलत प्रॉम्प्ट टेम्पलेट प्रदर्शन को खराब कर सकता है। इस स्तर पर यह इंजीनियरिंग से अधिक रसायन विद्या जैसा है।

कार्रवाई योग्य अंतर्दृष्टि: व्यवसायियों के लिए, यह एक स्पष्ट आह्वान है कि एलएलएम को तैयार-बिक्री अनुवादकों के रूप में देखना बंद करें और उन्हें प्रॉम्प्ट-अनुकूलन योग्य प्रणालियों के रूप में देखना शुरू करें। निवेश मॉडल प्रशिक्षण से टीएम के लिए मजबूत पुनर्प्राप्ति प्रणालियों के निर्माण और विभिन्न डोमेन के लिए मानकीकृत, अनुकूलित प्रॉम्प्ट टेम्पलेट विकसित करने की ओर स्थानांतरित होना चाहिए (जैसे कि समुदाय ने बर्ट फाइन-ट्यूनिंग को मानकीकृत किया था)। शोधकर्ताओं के लिए, अगला सीमांत इस प्रक्रिया को अधिक मजबूत और कुशल बनाना है - यह पता लगाना कि टीएम ज्ञान को अधिक कुशल प्रॉम्प्ट में कैसे संपीड़ित किया जाए या संदर्भ लंबाई और लागत को कम करने के लिए प्रॉम्प्टिंग को हल्की-फुल्की फाइन-ट्यूनिंग के साथ कैसे संकरित किया जाए।

5. विश्लेषण ढांचा: एक गैर-कोड उदाहरण

एक कानूनी अनुवाद फर्म पर विचार करें जिसके पास अनुबंध खंडों का एक विशाल टीएम है। पहले, सुधार के लिए एक एनएमटी प्रणाली को नए कानूनी डेटा पर पुनः प्रशिक्षित करने की आवश्यकता होती थी। टीएमपी-एलएम के साथ:

इनपुट: नया स्रोत वाक्य: "The indemnity clause shall survive termination of this Agreement."
पुनर्प्राप्ति: सिस्टम कानूनी टीएम में खोज करता है और दो समान, पहले से अनूदित खंड ढूंढता है:
- TM1: स्रोत: "This confidentiality obligation shall survive the expiration of the contract." → लक्ष्य: "La obligación de confidencialidad sobrevivirá a la expiración del contrato."
- TM2: स्रोत: "The warranty shall survive delivery and inspection." → लक्ष्य: "La garantía sobrevivirá a la entrega y la inspección."

प्रॉम्प्ट निर्माण (CODE शैली): सिस्टम एलएलएम के लिए यह प्रॉम्प्ट बनाता है:

[src-lang]=[This confidentiality obligation shall survive the expiration of the contract.] [tgt-lang]=[La obligación de confidencialidad sobrevivirá a la expiración del contrato.]
[src-lang]=[The warranty shall survive delivery and inspection.] [tgt-lang]=[La garantía sobrevivirá a la entrega y la inspección.]
[src-lang]=[The indemnity clause shall survive termination of this Agreement.] [tgt-lang]=

आउटपुट: एलएलएम, पैटर्न ("X shall survive Y" → "X sobrevivirá a Y") को पहचानते हुए, एक शैलीगत रूप से सुसंगत और कानूनी रूप से सटीक अनुवाद उत्पन्न करता है: "La cláusula de indemnización sobrevivirá a la terminación de este Acuerdo."

यह ढांचा एलएलएम को एक संदर्भ-जागरूक अनुवाद सहायक में बदल देता है जो फर्म की स्थापित शब्दावली और शैली का पालन करता है।

6. भविष्य के अनुप्रयोग और शोध दिशाएं

गतिशील संकर प्रणालियाँ: भविष्य की एमटी प्रणालियाँ सामान्य पाठ के लिए फाइन-ट्यून्ड एनएमटी और समृद्ध टीएम (कानूनी, चिकित्सा, तकनीकी) वाले डोमेन के लिए टीएमपी-एलएम के बीच सहजता से स्विच कर सकती हैं, गुणवत्ता और लागत के लिए अनुकूलन करते हुए।
द्विभाषी टीएम से परे: इस अवधारणा को बहुभाषी अनुवाद स्मृतियों तक विस्तारित करना, जिससे फ्यू-शॉट पिवट अनुवाद या कई भाषाओं में शैली अनुकूलन सक्षम हो सके।
सक्रिय शिक्षण और टीएम संपादन: एलएलएम आत्मविश्वास स्कोर या मौजूदा टीएम के साथ असहमति का उपयोग करके मानवीय टीएम में संभावित त्रुटियों को चिह्नित करना या मानवीय पोस्ट-संपादकों के लिए नए प्रविष्टियों का सुझाव देना, जिससे एक स्व-सुधारने वाला अनुवाद लूप बन सके।
छोटे, विशेष एलएलएम के साथ एकीकरण: टीएमपी-एलएम को अधिक कुशल, ओपन-सोर्स एलएलएम (जैसे लामा या मिस्ट्रल) पर लागू करना जो विशेष रूप से अनुवाद कार्यों के लिए फाइन-ट्यून किए गए हैं, जिससे बड़े, सामान्य-उद्देश्यीय, और महंगे एपीआई पर निर्भरता कम हो सके।
मानकीकृत प्रॉम्प्टिंग बेंचमार्क: समुदाय को "प्रॉम्प्ट-एमटी" जैसे बेंचमार्क की आवश्यकता है ताकि विभिन्न एलएलएम में अनुवाद के लिए विभिन्न प्रॉम्प्टिंग रणनीतियों का व्यवस्थित रूप से मूल्यांकन किया जा सके, जैसे कि पारंपरिक एनएमटी के लिए डब्ल्यूएमटी की भूमिका है।

7. संदर्भ

Mu, Y., Reheman, A., Cao, Z., et al. (2023). Augmenting Large Language Model Translators via Translation Memories. arXiv preprint arXiv:2305.17367.
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Khandelwal, U., Levy, O., Jurafsky, D., et al. (2021). Generalization through memorization: Nearest neighbor language models. International Conference on Learning Representations (ICLR).
Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models. Stanford Center for Research on Foundation Models.
Liu, N. F., Lin, K., Hewitt, J., et al. (2023). Lost in the middle: How language models use long contexts. arXiv preprint arXiv:2307.03172.
Reheman, A., Cao, Z., Li, B., et al. (2023). One-shot learning for neural machine translation with translation memories. Findings of the Association for Computational Linguistics.