ভাষা নির্বাচন করুন

অনুবাদ স্মৃতি ব্যবহার করে বৃহৎ ভাষা মডেল অনুবাদকদের উন্নতকরণ

অনুবাদ স্মৃতি প্রম্পট ব্যবহার করে এলএলএম-ভিত্তিক মেশিন অনুবাদ উন্নত করার গবেষণা, একাধিক ভাষা ও ডোমেনে উল্লেখযোগ্য BLEU স্কোর উন্নতি অর্জন।
translation-service.org | PDF Size: 0.2 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - অনুবাদ স্মৃতি ব্যবহার করে বৃহৎ ভাষা মডেল অনুবাদকদের উন্নতকরণ

1. ভূমিকা

এই গবেষণাপত্র, "অনুবাদ স্মৃতি ব্যবহার করে বৃহৎ ভাষা মডেল অনুবাদকদের উন্নতকরণ," বৃহৎ ভাষা মডেলগুলির (এলএলএম) প্রসঙ্গ-ভিত্তিক শিক্ষার ক্ষমতাকে কাজে লাগিয়ে মেশিন অনুবাদ (এমটি) উন্নত করার একটি অভিনব পদ্ধতি অনুসন্ধান করে। মূল ধারণাটি হল অতীতের মানব অনুবাদের ডাটাবেস—অনুবাদ স্মৃতি (টিএম)—কে গতিশীল প্রম্পট হিসাবে ব্যবহার করে এলএলএমগুলিকে নির্দেশনা দেওয়া, যাতে বেস মডেলের স্থাপত্য পরিবর্তন বা ব্যাপক পুনরায় প্রশিক্ষণের প্রয়োজন না পড়ে। এই পদ্ধতিটি, যাকে অনুবাদ স্মৃতি প্রম্পটিং ফর লার্জ ল্যাঙ্গুয়েজ মডেলস (TMP-LM) বলা হয়, উল্লেখযোগ্য কর্মক্ষমতা বৃদ্ধি প্রদর্শন করে, যা এলএলএম-ভিত্তিক অনুবাদকে বৃহৎ ডোমেন-নির্দিষ্ট ডেটাসেটে সূক্ষ্ম-টিউন করা সর্বাধুনিক নিউরাল মেশিন অনুবাদ (এনএমটি) সিস্টেমগুলির সাথে প্রতিযোগিতামূলক করে তোলে।

2. পদ্ধতি

2.1. অনুবাদ স্মৃতি প্রম্পটিং (TMP-LM)

TMP-LM হল একটি সহজ কিন্তু কার্যকর ফিউ-শট প্রম্পটিং কৌশল। অনুবাদ করার জন্য একটি প্রদত্ত উৎস বাক্য $x$-এর জন্য, সিস্টেম একটি টিএম থেকে $k$টি প্রাসঙ্গিক অনুবাদ জোড়া $(x^{tm}_i, y^{tm}_i)$ পুনরুদ্ধার করে। এই জোড়াগুলিকে একটি নির্দিষ্ট টেমপ্লেট অনুসরণ করে একটি প্রম্পটে ফরম্যাট করা হয়, যা তারপর $x$ অনুবাদ করার নির্দেশনার আগে যুক্ত করা হয়। এই প্রম্পটের শর্তে, এলএলএম অনুবাদ $y$ তৈরি করে। প্রক্রিয়াটিকে আনুষ্ঠানিকভাবে $y$ খুঁজে বের করা হিসাবে সংজ্ঞায়িত করা যেতে পারে যা $P(y | f_{ref}(x^{tm}_1, y^{tm}_1, ..., x^{tm}_k, y^{tm}_k, x), \theta)$ কে সর্বাধিক করে, যেখানে $f_{ref}$ হল প্রম্পট টেমপ্লেট ফাংশন এবং $\theta$ হল এলএলএম প্যারামিটার।

2.2. প্রম্পট টেমপ্লেট ডিজাইন

পেপারটি বিভিন্ন প্রম্পট শৈলী অন্বেষণ করে, প্রাথমিকভাবে নির্দেশনা এবং কোড ফরম্যাটের মধ্যে বৈপরীত্য দেখায় (পিডিএফ-এর চিত্র 1 দেখুন)। নির্দেশনা ফরম্যাট প্রাকৃতিক ভাষা ব্যবহার করে (যেমন, "যদি X1-এর অনুবাদ Y1 হয়..., তাহলে X-এর অনুবাদ কী?")। কোড ফরম্যাট একটি কাঠামোগত, কী-মান শৈলী ব্যবহার করে (যেমন, "[src-lang]=[X1] [tgt-lang]=[Y1]...")। টেমপ্লেটের পছন্দ প্রদত্ত টিএম উদাহরণগুলিকে কার্যকরভাবে ব্যবহার করার এলএলএম-এর ক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে।

মূল উন্নতি

২০-৩০ BLEU

বেস এলএলএম অনুবাদকের উপর অর্জিত পয়েন্ট

মূল সুবিধা

শূন্য স্থাপত্য পরিবর্তন

শুধুমাত্র প্রম্পটিং এর মাধ্যমে স্ট্যান্ডার্ড এলএলএম ব্যবহার করে

তুলনা ভিত্তি

SOTA NMT

অত্যন্ত সূক্ষ্ম-টিউন করা মডেলগুলির সাথে প্রতিযোগিতা করে

3. পরীক্ষা ও ফলাফল

3.1. পরীক্ষামূলক সেটআপ

পরীক্ষাগুলি GPT-3.5 মডেল (text-davinci-003, davinci-003 হিসাবে উল্লেখিত) ব্যবহার করে একাধিক ভাষা জোড়া (যেমন, Zh-En, De-En) এবং ডোমেন (আইটি, কোরআন, মেডিকেল, আইন) জুড়ে পরিচালিত হয়েছিল। অনুবাদ স্মৃতিগুলি ডোমেন-নির্দিষ্ট ডেটা থেকে তৈরি করা হয়েছিল। কর্মক্ষমতা BLEU স্কোর ব্যবহার করে মূল্যায়ন করা হয়েছিল, TMP-LM-এর সাথে একটি শক্তিশালী বেসলাইনের তুলনা করা হয়েছিল: টিএম প্রম্পট ছাড়া বেস davinci-003 মডেল এবং একটি ভালভাবে টিউন করা, বৃহৎ-স্কেল এনএমটি সিস্টেম (SOTA বেসলাইন) এর বিরুদ্ধে।

3.2. প্রধান ফলাফল

ফলাফলগুলি চমকপ্রদ। TMP-LM বিভিন্ন কাজে বেস এলএলএম-এর অনুবাদ গুণমান ২০ থেকে ৩০ BLEU পয়েন্ট বৃদ্ধি করেছে। বেশিরভাগ পরীক্ষা সেটে, প্রম্পট করা এলএলএম-এর কর্মক্ষমতা ডেডিকেটেড, ডোমেন-নির্দিষ্ট এনএমটি সিস্টেমের কর্মক্ষমতার সমান বা এমনকি অতিক্রম করেছে। এটি বিশেষায়িত অনুবাদ কাজের জন্য সাধারণ-উদ্দেশ্য এলএলএমগুলিকে অভিযোজিত করার জন্য উচ্চ-গুণমানের প্রম্পট সহ প্রসঙ্গ-ভিত্তিক শিক্ষার বিশাল সম্ভাবনা প্রদর্শন করে।

3.3. অপসারণ অধ্যয়ন

অপসারণ অধ্যয়নগুলি টিএম গুণমান এবং প্রম্পট ডিজাইন উভয়ের গুরুত্ব নিশ্চিত করেছে। কর্মক্ষমতা বৃদ্ধি সরাসরি পুনরুদ্ধার করা টিএম উদাহরণগুলির প্রাসঙ্গিকতা এবং নির্ভুলতার সাথে সম্পর্কিত ছিল। তদুপরি, কোড-স্টাইল প্রম্পট সাধারণত নির্দেশনা-স্টাইল প্রম্পটের চেয়ে আরও শক্তিশালী এবং সামঞ্জস্যপূর্ণ উন্নতি দিয়েছে, সম্ভবত এলএলএম-এর পার্স করার জন্য এর পরিষ্কার, কম অস্পষ্ট কাঠামোর কারণে।

মূল অন্তর্দৃষ্টি

  • এলএলএমগুলি অসাধারণ প্রম্পট শিক্ষার্থী: জটিল নির্দেশনা "বুঝতে" এবং অনুসরণ করার তাদের ক্ষমতা TMP-LM-এর সাফল্যের মূল সক্ষমকারী।
  • প্রম্পট ডিজাইন অত্যন্ত গুরুত্বপূর্ণ: প্রম্পট টেমপ্লেটের ফরম্যাট এবং স্বচ্ছতা অ-তুচ্ছ হাইপারপ্যারামিটার যা কর্মক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে।
  • গতিশীল জ্ঞান উৎস হিসাবে টিএম: এই পদ্ধতিটি স্থির টিএম ডাটাবেসগুলিকে এলএলএমগুলির জন্য সক্রিয়, প্রাসঙ্গিক নির্দেশিকায় পরিণত করে, ক্লাসিক এবং আধুনিক এমটি প্যারাডাইমের মধ্যে সেতুবন্ধন তৈরি করে।
  • খরচ-কার্যকর অভিযোজন: TMP-LM বৃহৎ এলএলএমগুলিকে সূক্ষ্ম-টিউন করার গণনীয় খরচ ছাড়াই উচ্চ-গুণমান, ডোমেন-নির্দিষ্ট অনুবাদের পথ প্রদান করে।

4. বিশ্লেষণ ও আলোচনা

4.1. মূল অন্তর্দৃষ্টি

এই কাগজটি শুধু ভালো অনুবাদের বিষয়ে নয়; এটি সম্পদ আর্বিট্রেজ-এর একটি মাস্টারক্লাস। লেখকরা একটি গুরুত্বপূর্ণ অদক্ষতা চিহ্নিত করেছেন: এলএলএম-এর যুগে বিদ্যমান, উচ্চ-মূল্যের অনুবাদ স্মৃতিগুলির (টিএম) অপর্যাপ্ত ব্যবহার। শিল্পটি মডেল প্যারামিটার স্কেলিং নিয়ে আবেশী হওয়ার সময়, তারা দেখায় যে প্রাসঙ্গিক বুদ্ধিমত্তা স্কেলিং—এলএলএমগুলিকে সঠিক পূর্ববর্তী উদাহরণ দেওয়া—অনুপাতহীন রিটার্ন দিতে পারে। ২০-৩০ BLEU পয়েন্টের লাফ শুধু একটি উন্নতি নয়; এটি একটি প্যারাডাইম শিফট, প্রমাণ করে যে অনেক কাজের জন্য, একটি চতুরভাবে প্রম্পট করা জেনারালিস্ট একটি সূক্ষ্ম-টিউন করা স্পেশালিস্টকে ছাড়িয়ে যেতে পারে। এটি অন্যান্য ডোমেনের ফলাফলের প্রতিধ্বনি করে যেখানে প্রসঙ্গ-ভিত্তিক শিক্ষা ডেটা-দুর্লভ কাজে সূক্ষ্ম-টিউনিংকে ছাড়িয়ে যায়, যেমন স্ট্যানফোর্ডের সেন্টার ফর রিসার্চ অন ফাউন্ডেশন মডেলস-এর মতো প্রতিষ্ঠানগুলির গবেষণায় আলোচিত হয়েছে।

4.2. যৌক্তিক প্রবাহ

যুক্তিটি মার্জিতভাবে সহজ এবং নির্মমভাবে কার্যকর: ১) সমস্যা: এলএলএমগুলি শক্তিশালী অনুবাদক কিন্তু ডোমেন নির্দিষ্টতার অভাব রয়েছে; টিএমগুলি ডোমেন জ্ঞানে সমৃদ্ধ কিন্তু নিষ্ক্রিয় ডাটাবেস। ২) অনুমান: এলএলএমগুলির প্রসঙ্গ-ভিত্তিক শিক্ষা টিএমগুলিকে সক্রিয় করতে পারে। ৩) প্রক্রিয়া: টিএম সেগমেন্টগুলিকে ফিউ-শট প্রম্পট হিসাবে ফ্রেম করুন। ৪) বৈধতা: ডোমেন জুড়ে বিশাল BLEU লাভ। ৫) অন্তর্নিহিত অর্থ: সর্বোত্তম অনুবাদ সিস্টেমটি একটি হাইব্রিড পুনরুদ্ধার-সমৃদ্ধ এলএলএম হতে পারে, একটি খাঁটি এন্ড-টু-এন্ড এনএমটি মডেল নয়। এই প্রবাহ RETRO-এর মতো মডেলগুলিতে দেখা সফল "পুনরুদ্ধার-সমৃদ্ধ জেনারেশন" প্যাটার্নের প্রতিফলন ঘটায়, কিন্তু এটি একটি পরিপক্ক, বাণিজ্যিকভাবে গুরুত্বপূর্ণ সমস্যা: অনুবাদের প্রয়োগ করে।

4.3. শক্তি ও দুর্বলতা

শক্তি: পদ্ধতিটি ব্যবহারিকভাবে উজ্জ্বল। এটি অ-আক্রমণাত্মক (কোনো মডেল পরিবর্তন নেই), অবিলম্বে মোতায়েনযোগ্য (OpenAI-এর API-এর মতো), এবং ডুবে যাওয়া খরচকে কাজে লাগায় (কর্পোরেট টিএম)। এটি একটি দায় (স্থির টিএম ডাটাবেস) কে একটি কৌশলগত সম্পদে পরিণত করে। SOTA NMT-এর সাথে তুলনা একটি সাহসী এবং বিশ্বাসযোগ্য বেঞ্চমার্ক।

দুর্বলতা: কাগজটি ঘরের হাতিটিকে উপেক্ষা করে: বিলম্বতা এবং খরচ। প্রতিটি বাক্যের জন্য দীর্ঘ, উদাহরণ-ভারী প্রম্পট তৈরি এবং প্রক্রিয়াকরণ অনুমান সময় এবং টোকেন খরচ নাটকীয়ভাবে বৃদ্ধি করে, যা রিয়েল-টাইম, উচ্চ-ভলিউম অ্যাপ্লিকেশনের জন্য নিষেধাজ্ঞামূলক। তদুপরি, পদ্ধতিটি টিএম গুণমানের প্রতি তীব্র সংবেদনশীল; অশান্ত বা অপ্রাসঙ্গিক টিএম ম্যাচ কর্মক্ষমতা হ্রাস করতে পারে, একটি "আবর্জনা-ইন, আবর্জনা-আউট" পরিস্থিতি তৈরি করে। একটি মালিকানাধীন মডেল (davinci-003) এর উপর নির্ভরতা পুনরুত্পাদনযোগ্যতা এবং স্বাধীন যাচাইকরণকেও সীমিত করে।

4.4. বাস্তবায়নযোগ্য অন্তর্দৃষ্টি

এন্টারপ্রাইজ নেতাদের জন্য: আপনার টিএমকে একটি লিগ্যাসি আর্কাইভ হিসাবে বিবেচনা করা বন্ধ করুন। এই গবেষণা আপনার AI অনুবাদ স্ট্যাকের একটি মূল উপাদান হিসাবে টিএম সম্পদগুলির পুনর্মূল্যায়নের নির্দেশ দেয়। প্রথম-চালক সুবিধা এলএলএম প্রম্পটিং-এর জন্য অপ্টিমাইজ করা শক্তিশালী, ভেক্টর-সার্চ-সক্ষম টিএম পুনরুদ্ধার সিস্টেম নির্মাণে নিহিত।

গবেষকদের জন্য: কোড-স্টাইল প্রম্পট একটি উল্লেখযোগ্য আবিষ্কার। ভবিষ্যতের কাজকে অবশ্যই অনুবাদের জন্য প্রম্পট ইঞ্জিনিয়ারিংকে পদ্ধতিগত করতে হবে, শিল্প থেকে বিজ্ঞানে স্থানান্তরিত করতে হবে। ওপেন-সোর্স এলএলএম (যেমন, LLaMA, BLOOM) দিয়ে এটি অন্বেষণ করা পদ্ধতিটিকে গণতান্ত্রিক করার জন্য একটি গুরুত্বপূর্ণ পরবর্তী পদক্ষেপ।

ডেভেলপারদের জন্য: একটি ফলব্যাক মেকানিজম বাস্তবায়ন করুন। টিএম পুনরুদ্ধার সিস্টেম থেকে আত্মবিশ্বাস স্কোর ব্যবহার করুন; যদি কোনো উচ্চ-গুণমানের ম্যাচ না পাওয়া যায়, তাহলে অবনতি এড়াতে বেস এলএলএম অনুবাদে ডিফল্ট করুন। এই হাইব্রিড রোবাস্টনেস প্রোডাকশন সিস্টেমের জন্য মূল।

5. প্রযুক্তিগত বিবরণ

মূল প্রযুক্তিগত উদ্ভাবন হল প্রম্পট গঠন। একটি উৎস বাক্য $x$, এবং $k$টি পুনরুদ্ধার করা টিএম জোড়া $(x_i^{tm}, y_i^{tm})$ দেওয়া হলে, প্রম্পট $P$ নিম্নরূপ তৈরি করা হয়:
$P = f_{ref}(x_1^{tm}, y_1^{tm}, ..., x_k^{tm}, y_k^{tm}, x)$
যেখানে $f_{ref}$ একটি টেমপ্লেট ফাংশন। তারপর এলএলএম গণনা করে:
$y^* = \arg\max_y P(y | P, \theta)$
পেপারের পরীক্ষাগুলি সাধারণত $k=2$ বা $k=4$ ব্যবহার করে। টিএম উদাহরণগুলির পুনরুদ্ধার $x$ এবং $x_i^{tm}$-এর মধ্যে BM25 বা এমবেডিং কোসাইন সাদৃশ্যের মতো সাদৃশ্য মেট্রিক্সের উপর ভিত্তি করে।

6. বিশ্লেষণ কাঠামোর উদাহরণ

পরিস্থিতি: একটি আইনি ফার্মের জার্মান থেকে ইংরেজিতে একটি নতুন চুক্তি ধারা অনুবাদ করার প্রয়োজন। তাদের টিএম-এ হাজার হাজার পূর্বে অনুবাদ করা ধারা রয়েছে।
কাঠামো প্রয়োগ:

  1. পুনরুদ্ধার: সিস্টেম টিএম থেকে 2টি সবচেয়ে অনুরূপ জার্মান উৎস ধারা এবং তাদের বিশেষজ্ঞ ইংরেজি অনুবাদ খুঁজে পেতে শব্দার্থিক অনুসন্ধান ব্যবহার করে।
  2. প্রম্পট নির্মাণ (কোড-স্টাইল):
    [src-lang]=[প্রাপ্ত জার্মান ধারা 1] [tgt-lang]=[ইংরেজি অনুবাদ 1] [src-lang]=[প্রাপ্ত জার্মান ধারা 2] [tgt-lang]=[ইংরেজি অনুবাদ 2] [src-lang]=[নতুন জার্মান ধারা] [tgt-lang]=
  3. নির্বাহ: এই প্রম্পটটি একটি এলএলএম-এ (যেমন, GPT-4) পাঠানো হয়। এলএলএম, পূর্ববর্তী উদাহরণগুলির সুনির্দিষ্ট আইনি বাক্য গঠনের শর্তে, নতুন ধারাটির জন্য একটি অনুবাদ তৈরি করে যা সামঞ্জস্যপূর্ণ পরিভাষা এবং শৈলী বজায় রাখে।
  4. আউটপুট: একটি উচ্চ-গুণমান, ডোমেন-উপযুক্ত অনুবাদ যা একটি জেনেরিক অনুবাদক সম্ভবত মিস করবে।
এই কাঠামোটি প্রতিটি নতুন অনুবাদ কাজকে সেই নথির প্রসঙ্গের জন্য নির্দিষ্ট একটি ফিউ-শট শিক্ষার সমস্যায় পরিণত করে।

7. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা

TMP-LM-এর প্রভাব অনুবাদের বাইরেও প্রসারিত:

  • নিয়ন্ত্রিত পাঠ্য জেনারেশন: উদাহরণমূলক পাঠ্যগুলিকে প্রম্পট হিসাবে ব্যবহার করে নির্দিষ্ট ব্র্যান্ড ভয়েস, প্রযুক্তিগত ডকুমেন্টেশন শৈলী বা নিয়ন্ত্রক সম্মতির জন্য এলএলএমগুলিকে অভিযোজিত করা।
  • ব্যক্তিগতকৃত AI সহকারী: একটি ব্যবহারকারীর অতীতের ইমেল, রিপোর্ট বা বার্তাগুলিকে একটি "শৈলী স্মৃতি" হিসাবে ব্যবহার করে একটি এলএলএমকে তাদের অনন্য কণ্ঠে নতুন বিষয়বস্তু তৈরি করতে প্রম্পট করা।
  • কোড জেনারেশন ও অভিযোজন: একটি কোডবেসের বিদ্যমান ফাংশন এবং প্যাটার্ন দিয়ে এলএলএমগুলিকে প্রম্পট করা একই কনভেনশন এবং স্থাপত্য অনুসরণ করে নতুন কোড তৈরি করতে।
  • ভবিষ্যতের গবেষণা: মূল দিকনির্দেশনাগুলির মধ্যে রয়েছে খরচ কমানোর জন্য প্রম্পট কম্প্রেশন অপ্টিমাইজ করা, ফাজি টিএম ম্যাচিংয়ের জন্য ভাল পুনরুদ্ধার মডেল বিকাশ করা এবং এলএলএমগুলি বড় হওয়ার সাথে সাথে প্রসঙ্গ-ভিত্তিক শিক্ষা বনাম সূক্ষ্ম-টিউনিং-এর সীমা অন্বেষণ করা। LoRA-এর মতো প্যারামিটার-দক্ষ সূক্ষ্ম-টিউনিং (PEFT) পদ্ধতির সাথে এটি একীভূত করা আরও শক্তিশালী হাইব্রিড তৈরি করতে পারে।
চূড়ান্ত দিকনির্দেশনা হল গতিশীল প্রসঙ্গ ইঞ্জিন তৈরি করা—সিস্টেম যা স্বয়ংক্রিয়ভাবে যেকোনো প্রদত্ত কাজের জন্য এলএলএমগুলিকে নির্দেশনা দেওয়ার জন্য সবচেয়ে প্রাসঙ্গিক প্রাসঙ্গিক জ্ঞান (টিএম, জ্ঞান গ্রাফ, অতীত মিথস্ক্রিয়া থেকে) পরিচালনা, পুনরুদ্ধার এবং ফরম্যাট করে।

8. তথ্যসূত্র

  1. Mu, Y., Reheman, A., Cao, Z., et al. (2023). Augmenting Large Language Model Translators via Translation Memories. arXiv preprint arXiv:2305.17367.
  2. Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33.
  3. Khandelwal, U., Levy, O., Jurafsky, D., et al. (2021). Generalization through Memorization: Nearest Neighbor Language Models. International Conference on Learning Representations (ICLR).
  4. Borgeaud, S., Mensch, A., Hoffmann, J., et al. (2022). Improving Language Models by Retrieving from Trillions of Tokens. International Conference on Machine Learning (ICML).
  5. Stanford Center for Research on Foundation Models (CRFM). (2023). On the Opportunities and Risks of Foundation Models. https://crfm.stanford.edu/.
  6. Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30.