অনুবাদ স্মৃতি ব্যবহার করে বৃহৎ ভাষা মডেল অনুবাদকদের উন্নতকরণ

1. ভূমিকা

এই গবেষণাপত্রটি বৃহৎ ভাষা মডেলগুলির (এলএলএম) উদ্ভূত কনটেক্সট লার্নিং ক্ষমতাকে কাজে লাগিয়ে মেশিন অনুবাদ (এমটি) উন্নত করার একটি অভিনব পদ্ধতি অনুসন্ধান করে। মূল প্রস্তাবনা হলো যে অনুবাদ স্মৃতিগুলি (টিএম)—পূর্ববর্তী মানব অনুবাদের ডাটাবেস—এলএলএম-এর জন্য অত্যন্ত কার্যকর ফিউ-শট প্রম্পট হিসেবে কাজ করতে পারে, যা তাদের আরও নির্ভুল এবং ডোমেইন-উপযুক্ত অনুবাদ তৈরি করতে নির্দেশনা দেয়, আর্কিটেকচার পরিবর্তন বা ফাইন-টিউনিংয়ের প্রয়োজন ছাড়াই।

এই কাজটি পূর্ববর্তী পদ্ধতিগুলির বিপরীতে নিজেকে স্থাপন করে যেগুলোর জন্য হয় নিউরাল মেশিন অনুবাদ (এনএমটি) মডেল আর্কিটেকচার পরিবর্তন করা, নয়তো আলাদা অনুবাদ জ্ঞানভাণ্ডার তৈরি করা প্রয়োজন ছিল। বিপরীতে, প্রস্তাবিত পদ্ধতি, বৃহৎ ভাষা মডেলের জন্য অনুবাদ স্মৃতি প্রম্পটিং (টিএমপি-এলএম), একটি লাইটওয়েট, শুধুমাত্র প্রম্পটিং-ভিত্তিক কৌশল যা এলএলএম-এর অন্তর্নিহিত ক্ষমতা—তার কনটেক্সট উইন্ডোতে উপস্থাপিত নির্দেশাবলী বুঝতে এবং অনুসরণ করতে—কাজে লাগায়।

2. পদ্ধতিবিজ্ঞান: এলএলএম-এর জন্য অনুবাদ স্মৃতি প্রম্পটিং (টিএমপি-এলএম)

টিএমপি-এলএম একটি সরল কিন্তু শক্তিশালী কাঠামো যা অনুবাদ জ্ঞানকে একটি এলএলএম-এ ইনজেক্ট করে সংশ্লিষ্ট টিএম উদাহরণগুলোকে অনুবাদ কোয়েরির আগে যুক্ত করে। প্রক্রিয়াটি অন্তর্ভুক্ত করে: ১) একটি প্রদত্ত ইনপুট বাক্যের জন্য একটি টিএম থেকে অনুরূপ উৎস বাক্য এবং তাদের অনুবাদ পুনরুদ্ধার করা। ২) এই (উৎস, লক্ষ্য) জোড়াগুলোকে একটি নির্দিষ্ট টেমপ্লেট অনুসরণ করে একটি সুসংগত প্রম্পটে ফরম্যাট করা। ৩) এই প্রম্পটটি, তারপরে নতুন উৎস বাক্যটি, এলএলএম-এর কাছে অনুবাদের জন্য উপস্থাপন করা।

2.1. প্রম্পট টেমপ্লেট ডিজাইন

গবেষণাপত্রটি এলএলএম-এর কাছে অনুবাদ কাজ এবং উদাহরণগুলো কার্যকরভাবে যোগাযোগ করার জন্য বিভিন্ন প্রম্পট শৈলী অন্বেষণ করে। দুটি প্রাথমিক টেমপ্লেট হাইলাইট করা হয়েছে:

নির্দেশনামূলক টেমপ্লেট (INSTRUCTION): প্রাকৃতিক ভাষার নির্দেশনা ব্যবহার করে। উদাহরণস্বরূপ: "যদি 'X1'-এর ইংরেজি থেকে ফরাসি অনুবাদ 'Y1' হয় এবং 'X2'-এর অনুবাদ 'Y2' হয়, তাহলে 'X_new'-এর অনুবাদ কী? শুধুমাত্র অনুবাদ ফলাফল প্রয়োজন।"
কাঠামোগত টেমপ্লেট (CODE): একটি আরও আনুষ্ঠানিক, কী-ভ্যালু জোড়া কাঠামো ব্যবহার করে। উদাহরণস্বরূপ: "[src-lang]=[X1] [tgt-lang]=[Y1] [src-lang]=[X2] [tgt-lang]=[Y2] [src-lang]=[X_new] [tgt-lang]="

টেমপ্লেটের পছন্দ এলএলএম-এর কর্মক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে, যেখানে কাঠামোগত টেমপ্লেটগুলি অস্পষ্টতা কমিয়ে প্রায়শই আরও সামঞ্জস্যপূর্ণ আউটপুট দেয়।

2.2. টিএমপি-এলএম কাঠামো

মূল প্রক্রিয়াটি বিমূর্ত করা যেতে পারে। একটি ইনপুট বাক্য $x$ দেওয়া হলে, একটি টিএম পুনরুদ্ধার ফাংশন $R(x)$ $k$ সংখ্যক সর্বাধিক অনুরূপ উৎস-লক্ষ্য জোড়া $(x_i^{tm}, y_i^{tm})$ খুঁজে পায়। একটি প্রম্পট নির্মাতা ফাংশন $C(\{(x_i^{tm}, y_i^{tm})\}_{i=1}^k, x)$ এগুলোকে একটি চূড়ান্ত প্রম্পট $P$-এ ফরম্যাট করে। এলএলএম, যাকে $M$ দ্বারা চিহ্নিত করা হয়, তারপর অনুবাদটি তৈরি করে: $\hat{y} = M(P)$।

কার্যকারিতা নির্ভর করে এলএলএম-এর কনটেক্সট-ভিত্তিক সাদৃশ্যমূলক যুক্তি সম্পাদনের ক্ষমতার উপর—প্রদত্ত উদাহরণগুলোর প্যাটার্ন চিহ্নিত করা এবং নতুন কোয়েরিতে প্রয়োগ করা।

3. পরীক্ষামূলক সেটআপ ও ফলাফল

3.1. ডেটাসেট এবং বেসলাইন

পরীক্ষাগুলি একাধিক ভাষা (যেমন, ইংরেজি-জার্মান, ইংরেজি-চাইনিজ) এবং ডোমেইন (আইনি, আইটি, চিকিৎসা) জুড়ে অনুবাদ কাজে পরিচালিত হয়েছিল। ব্যবহৃত প্রাথমিক এলএলএম ছিল OpenAI-এর text-davinci-003। বেসলাইনে অন্তর্ভুক্ত ছিল শক্তিশালী, ভালোভাবে ফাইন-টিউন করা ডোমেইন-নির্দিষ্ট এনএমটি সিস্টেম যা বড় দ্বিভাষিক কর্পোরা উপর প্রশিক্ষিত।

পরীক্ষামূলক হাইলাইটস

মডেল: জিপিটি-৩.৫ (text-davinci-003)
মূল্যায়ন মেট্রিক: BLEU স্কোর
মূল তুলনা: টিএমপি-এলএম বনাম সর্বশেষ ডোমেইন-টিউনড এনএমটি

3.2. মূল ফলাফল ও বিশ্লেষণ

ফলাফলগুলি ছিল চমকপ্রদ:

বিপুল BLEU লাভ: উচ্চ-মানের টিএম প্রম্পট ব্যবহার করে এলএলএম-এর জিরো-শট অনুবাদ কর্মক্ষমতা বিভিন্ন কাজে ২০ থেকে ৩০ BLEU পয়েন্ট বৃদ্ধি পেয়েছে। এটি একটি এলএলএমকে একটি মাঝারি মানের অনুবাদক থেকে একটি অত্যন্ত দক্ষ অনুবাদকে রূপান্তরিত করে।
সর্বশেষ এনএমটি-র সাথে প্রতিযোগিতামূলক: প্রম্পটেড এলএলএম-এর কর্মক্ষমতা ছিল সর্বশেষ এনএমটি সিস্টেমগুলির সাথে তুলনীয়, এবং কখনও কখনও অতিক্রম করেছিল, যেগুলো বিশেষভাবে বৃহৎ-স্কেল ইন-ডোমেইন ডেটাতে প্রশিক্ষিত ছিল। এটি একটি উল্লেখযোগ্য আবিষ্কার, কারণ এটি ইঙ্গিত দেয় যে উপযুক্ত প্রম্পটিং সহ এলএলএমগুলি কাজ-নির্দিষ্ট প্রশিক্ষণ ছাড়াই বিশেষায়িত মডেলগুলির কর্মক্ষমতার সাথে মিলে যেতে পারে।
টেমপ্লেট সংবেদনশীলতা: কাঠামোগত (CODE) টেমপ্লেট সাধারণত প্রাকৃতিক ভাষার (INSTRUCTION) টেমপ্লেটের চেয়ে আরও নির্ভরযোগ্য এবং উচ্চ-মানের অনুবাদ দিয়েছে, যা সুনির্দিষ্ট প্রম্পট ইঞ্জিনিয়ারিংয়ের গুরুত্বকে জোর দেয়।

চার্ট বর্ণনা (অন্তর্নিহিত): একটি বার চার্ট প্রতিটি ভাষা জোড়া/ডোমেইনের জন্য তিনটি গ্রুপ দেখাবে: ১) এলএলএম জিরো-শট (নিম্ন BLEU), ২) এলএলএম + টিএমপি-এলএম (অত্যন্ত উচ্চ BLEU), ৩) সর্বশেষ এনএমটি বেসলাইন (উচ্চ BLEU, গ্রুপ ২-এর অনুরূপ)। গ্রুপ ২ এবং ৩-এর বারগুলি ঘনিষ্ঠভাবে মিলে যাবে, উভয়ই গ্রুপ ১-এর উপরে উচ্চতর হবে।

4. প্রযুক্তিগত বিশ্লেষণ ও মূল অন্তর্দৃষ্টি

মূল অন্তর্দৃষ্টি: গবেষণাপত্রের যুগান্তকারী উদ্ঘাটন হলো যে একটি এলএলএম-এর অনুবাদ ক্ষমতা স্থির নয়, বরং তার কনটেক্সটের একটি ফাংশন। কাঁচা মডেলটি একটি দুর্বল অনুবাদক, কিন্তু যখন তার কনটেক্সট সংশ্লিষ্ট, উচ্চ-নির্ভুলতা সম্পন্ন অনুবাদ উদাহরণ (টিএম) দিয়ে সিড করা হয়, তখন এটি কাস্টম-তৈরি এনএমটি সিস্টেমগুলির সাথে প্রতিদ্বন্দ্বী কর্মক্ষমতা আনলক করে। এটি মৌলিকভাবে এলএলএমগুলিকে স্থির মডেল থেকে গতিশীল, কনটেক্সট-প্রোগ্রামযোগ্য অনুবাদ ইঞ্জিনে পুনঃনির্ধারণ করে। এটি স্ট্যানফোর্ডের ফাউন্ডেশন মডেল গবেষণা কেন্দ্রের গবেষকদের দ্বারা হাইলাইট করা বৃহত্তর প্যারাডাইম শিফটের সাথে সামঞ্জস্যপূর্ণ, যারা প্রস্তাব করেন যে একটি মডেলের "জ্ঞান" এবং "ক্ষমতা" ক্রমবর্ধমানভাবে প্রম্পট-ভিত্তিক অ্যাক্টিভেশন দ্বারা সংজ্ঞায়িত হয়, শুধুমাত্র স্থির ওয়েট দ্বারা নয়।

যুক্তিগত প্রবাহ: যুক্তিটি মার্জিত এবং আকর্ষক। ১) এলএলএমগুলির শক্তিশালী কনটেক্সট লার্নিং এবং নির্দেশনা অনুসরণের ক্ষমতা রয়েছে (যেমন Ouyang et al.-এর "Training language models to follow instructions with human feedback"-এর মতো কাজে প্রদর্শিত)। ২) অনুবাদ একটি সুসংজ্ঞায়িত কাজ যা উদাহরণের মাধ্যমে বর্ণনা করা যেতে পারে। ৩) টিএমগুলি কিউরেটেড, উচ্চ-মানের উদাহরণ জোড়া। ৪) অতএব, টিএমগুলিকে কনটেক্সট-ভিত্তিক উদাহরণ হিসেবে উপস্থাপন করা উচিত, এবং করে, অনুবাদ গুণমানকে নাটকীয়ভাবে উন্নত করে। যুক্তিটি নির্ভুল এবং পরীক্ষামূলক প্রমাণ দৃঢ়।

শক্তি ও ত্রুটি: শক্তি অত্যন্ত স্পষ্ট: একটি সরল, অ-আক্রমণাত্মক পদ্ধতি বিপুল লাভ দেয়। এটি বিদ্যমান টিএম সম্পদ এবং রেডিমেড এলএলএম ব্যবহার করে উচ্চ-মানের এমটিকে গণতান্ত্রিক করে তোলে। যাইহোক, ত্রুটিগুলি নির্ভরশীলতার মধ্যে রয়েছে। প্রথমত, এটি পুনরুদ্ধারকৃত টিএম ম্যাচগুলির গুণমান এবং প্রাসঙ্গিকতার উপর অত্যন্ত নির্ভরশীল—অপদার্থ ইন, অপদার্থ আউট। দ্বিতীয়ত, এটি সমস্ত এলএলএম সীমাবদ্ধতা উত্তরাধিকার সূত্রে পায়: খরচ, লেটেন্সি এবং কনটেক্সট উইন্ডো সীমাবদ্ধতা (Liu et al. দ্বারা চিহ্নিত "Lost-in-the-middle" সমস্যার মতো)। তৃতীয়ত, যেমন গবেষণাপত্রটি ইঙ্গিত দেয়, পদ্ধতিটি ভঙ্গুর; ভুল প্রম্পট টেমপ্লেট কর্মক্ষমতা হ্রাস করতে পারে। এই পর্যায়ে এটি ইঞ্জিনিয়ারিংয়ের চেয়ে বেশি আলকেমি।

কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারীদের জন্য, এটি একটি স্পষ্ট আহ্বান যাতে এলএলএমগুলিকে আউট-অফ-দ্য-বক্স অনুবাদক হিসেবে দেখা বন্ধ করে এবং তাদের প্রম্পট-অপ্টিমাইজযোগ্য সিস্টেম হিসেবে দেখা শুরু করা হয়। বিনিয়োগ মডেল প্রশিক্ষণ থেকে টিএম-এর জন্য দৃঢ় পুনরুদ্ধার সিস্টেম তৈরি এবং বিভিন্ন ডোমেইনের জন্য মানসম্মত, অপ্টিমাইজড প্রম্পট টেমপ্লেট বিকাশের দিকে স্থানান্তরিত হতে হবে (যেমনটি সম্প্রদায় BERT ফাইন-টিউনিংকে মানসম্মত করেছিল)। গবেষকদের জন্য, পরবর্তী সীমান্ত হলো এই প্রক্রিয়াটিকে আরও দৃঢ় এবং দক্ষ করা—কীভাবে টিএম জ্ঞানকে আরও দক্ষ প্রম্পটে সংকুচিত করা যায় বা কীভাবে প্রম্পটিংকে লাইটওয়েট ফাইন-টিউনিংয়ের সাথে হাইব্রিডাইজ করা যায় যাতে কনটেক্সট দৈর্ঘ্য এবং খরচ কমানো যায় তা অন্বেষণ করা।

5. বিশ্লেষণ কাঠামো: একটি নন-কোড উদাহরণ

একটি আইনি অনুবাদ ফার্ম বিবেচনা করুন যার চুক্তি ধারাগুলির একটি বিশাল টিএম রয়েছে। পূর্বে, উন্নতি করার জন্য একটি এনএমটি সিস্টেমের নতুন আইনি ডেটাতে পুনঃপ্রশিক্ষণের প্রয়োজন হতো। টিএমপি-এলএম-এর সাথে:

ইনপুট: নতুন উৎস বাক্য: "The indemnity clause shall survive termination of this Agreement."
পুনরুদ্ধার: সিস্টেমটি আইনি টিএম অনুসন্ধান করে এবং দুটি অনুরূপ, পূর্বে অনুবাদ করা ধারা খুঁজে পায়:
- টিএম১: উৎস: "This confidentiality obligation shall survive the expiration of the contract." → লক্ষ্য: "La obligación de confidencialidad sobrevivirá a la expiración del contrato."
- টিএম২: উৎস: "The warranty shall survive delivery and inspection." → লক্ষ্য: "La garantía sobrevivirá a la entrega y la inspección."

প্রম্পট নির্মাণ (CODE শৈলী): সিস্টেমটি এলএলএম-এর জন্য এই প্রম্পটটি তৈরি করে:

[src-lang]=[This confidentiality obligation shall survive the expiration of the contract.] [tgt-lang]=[La obligación de confidencialidad sobrevivirá a la expiración del contrato.]
[src-lang]=[The warranty shall survive delivery and inspection.] [tgt-lang]=[La garantía sobrevivirá a la entrega y la inspección.]
[src-lang]=[The indemnity clause shall survive termination of this Agreement.] [tgt-lang]=

আউটপুট: এলএলএম, প্যাটার্নটি চিনতে পেরে ("X shall survive Y" → "X sobrevivirá a Y"), একটি শৈলীগতভাবে সামঞ্জস্যপূর্ণ এবং আইনিভাবে নির্ভুল অনুবাদ তৈরি করে: "La cláusula de indemnización sobrevivirá a la terminación de este Acuerdo."

এই কাঠামোটি এলএলএমকে একটি কনটেক্সট-সচেতন অনুবাদ সহকারীতে পরিণত করে যা ফার্মের প্রতিষ্ঠিত পরিভাষা এবং শৈলী মেনে চলে।

6. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশনা

গতিশীল হাইব্রিড সিস্টেম: ভবিষ্যতের এমটি সিস্টেমগুলি সাধারণ পাঠ্যের জন্য ফাইন-টিউনড এনএমটি এবং সমৃদ্ধ টিএমযুক্ত ডোমেইনের (আইনি, চিকিৎসা, প্রযুক্তিগত) জন্য টিএমপি-এলএম-এর মধ্যে নির্বিঘ্নে স্যুইচ করতে পারে, গুণমান এবং খরচের জন্য অপ্টিমাইজ করে।
দ্বিভাষিক টিএম-এর বাইরে: ধারণাটিকে বহুভাষিক অনুবাদ স্মৃতিতে প্রসারিত করা, ফিউ-শট পিভট অনুবাদ বা একাধিক ভাষা জুড়ে শৈলী অভিযোজন সক্ষম করা।
সক্রিয় শিক্ষা ও টিএম কিউরেশন: এলএলএম আত্মবিশ্বাস স্কোর বা বিদ্যমান টিএম-এর সাথে মতবিরোধ ব্যবহার করে মানব টিএম-এ সম্ভাব্য ত্রুটি চিহ্নিত করা বা মানব পোস্ট-এডিটরদের জন্য নতুন এন্ট্রি প্রস্তাব করা, একটি স্ব-উন্নয়নশীল অনুবাদ লুপ তৈরি করা।
ছোট, বিশেষায়িত এলএলএম-এর সাথে একীকরণ: টিএমপি-এলএমকে আরও দক্ষ, ওপেন-সোর্স এলএলএম (যেমন Llama বা Mistral) এ প্রয়োগ করা যা বিশেষভাবে অনুবাদ কাজের জন্য ফাইন-টিউনড, বড়, সাধারণ-উদ্দেশ্য এবং ব্যয়বহুল API-এর উপর নির্ভরতা হ্রাস করে।
মানসম্মত প্রম্পটিং বেঞ্চমার্ক: সম্প্রদায়ের "Prompt-MT"-এর মতো বেঞ্চমার্ক প্রয়োজন যাতে বিভিন্ন এলএলএম জুড়ে অনুবাদের জন্য বিভিন্ন প্রম্পটিং কৌশল পদ্ধতিগতভাবে মূল্যায়ন করা যায়, যেমনটি ঐতিহ্যগত এনএমটি-র জন্য WMT-এর ভূমিকা।

7. তথ্যসূত্র

Mu, Y., Reheman, A., Cao, Z., et al. (2023). Augmenting Large Language Model Translators via Translation Memories. arXiv preprint arXiv:2305.17367.
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Khandelwal, U., Levy, O., Jurafsky, D., et al. (2021). Generalization through memorization: Nearest neighbor language models. International Conference on Learning Representations (ICLR).
Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models. Stanford Center for Research on Foundation Models.
Liu, N. F., Lin, K., Hewitt, J., et al. (2023). Lost in the middle: How language models use long contexts. arXiv preprint arXiv:2307.03172.
Reheman, A., Cao, Z., Li, B., et al. (2023). One-shot learning for neural machine translation with translation memories. Findings of the Association for Computational Linguistics.