1. ভূমিকা
অনুবাদ মেমরি (টিএম) সিস্টেমগুলি আধুনিক কম্পিউটার-সহায়ক অনুবাদ (ক্যাট) সরঞ্জামের একটি মৌলিক স্তম্ভ, যা পেশাদার অনুবাদকদের দ্বারা ব্যাপকভাবে ব্যবহৃত হয়। এই সিস্টেমগুলির একটি গুরুত্বপূর্ণ উপাদান হল ফাজি ম্যাচ অ্যালগরিদম—যে প্রক্রিয়া একটি নতুন অনুবাদ কাজে সহায়তার জন্য ডাটাবেস (টিএম ব্যাংক বা টিএমবি) থেকে সবচেয়ে সহায়ক পূর্বে অনূদিত সেগমেন্টগুলি পুনরুদ্ধার করে। যদিও বাণিজ্যিক সিস্টেমগুলি প্রায়শই তাদের নির্দিষ্ট অ্যালগরিদমগুলি গোপন রাখে, তবে একাডেমিক ও শিল্পখাতের ঐকমত্য এডিট ডিসট্যান্স-ভিত্তিক পদ্ধতিগুলিকে কার্যত মানদণ্ড হিসাবে নির্দেশ করে। এই গবেষণাপত্রটি এই অনুমানটি তদন্ত করে, সহায়তার বিষয়ে মানুষের মূল্যায়নের বিপরীতে বিভিন্ন ম্যাচিং অ্যালগরিদম মূল্যায়ন করে এবং ওয়েটেড এন-গ্রাম প্রিসিশন ভিত্তিক একটি নতুন অ্যালগরিদম প্রস্তাব করে যা ঐতিহ্যগত পদ্ধতিগুলিকে ছাড়িয়ে যায়।
2. পটভূমি ও সম্পর্কিত কাজ
টিএম প্রযুক্তির মৌলিক ধারণাগুলি ১৯৭০-এর দশকের শেষের দিকে এবং ১৯৮০-এর দশকের শুরুতে উদ্ভূত হয়েছিল। ১৯৯০-এর দশকের শেষ থেকে এর ব্যাপক গ্রহণযোগ্যতা পেশাদার অনুবাদ ওয়ার্কফ্লোতে এর ভূমিকা সুদৃঢ় করেছে। একটি টিএম সিস্টেমের কার্যকারিতা কেবল এর সংরক্ষিত অনুবাদের গুণমান ও প্রাসঙ্গিকতার উপরই নির্ভর করে না, বরং গুরুত্বপূর্ণভাবে, সেগুলি পুনরুদ্ধারকারী অ্যালগরিদমের উপর নির্ভর করে।
2.1. অনুবাদ মেমরির ভূমিকা
টিএম সিস্টেমগুলি সোর্স-টার্গেট অনুবাদ জোড়া সংরক্ষণ করে কাজ করে। যখন একজন অনুবাদক একটি নতুন বাক্য ("সোর্স") নিয়ে কাজ করেন, তখন সিস্টেমটি টিএমবি-কে অতীতের অনুরূপ সোর্স বাক্যগুলির জন্য প্রশ্ন করে এবং তাদের সংশ্লিষ্ট অনুবাদগুলি পরামর্শ হিসাবে উপস্থাপন করে। ব্যবহৃত সাদৃশ্য মেট্রিক সরাসরি প্রদত্ত সহায়তার গুণমান নির্ধারণ করে।
2.2. বাণিজ্যিক টিএম সিস্টেম ও অ্যালগরিদমের গোপনীয়তা
কোয়েন ও সেনেলার্ট (২০১০) এবং সিমার্ড ও ফুজিতা (২০১২) যেমন উল্লেখ করেছেন, বাণিজ্যিক টিএম সিস্টেমে (যেমন, এসডিএল ট্রাডোস, মেমোকিউ) ব্যবহৃত সঠিক পুনরুদ্ধার অ্যালগরিদমগুলি সাধারণত প্রকাশ করা হয় না। এটি শিল্প অনুশীলন ও একাডেমিক গবেষণার মধ্যে একটি ফাঁক তৈরি করে।
2.3. এডিট ডিসট্যান্স অনুমান
গোপনীয়তা সত্ত্বেও, সাহিত্য ধারাবাহিকভাবে পরামর্শ দেয় যে এডিট ডিসট্যান্স (লেভেনশটাইন দূরত্ব) বেশিরভাগ বাণিজ্যিক সিস্টেমের মূল অ্যালগরিদম। এডিট ডিসট্যান্স একটি স্ট্রিংকে অন্য স্ট্রিং-এ পরিবর্তন করতে প্রয়োজনীয় একক-অক্ষর সম্পাদনার (সন্নিবেশ, মুছে ফেলা, প্রতিস্থাপন) সর্বনিম্ন সংখ্যা পরিমাপ করে। যদিও এটি স্বজ্ঞাত, এই কাজের আগে অনুবাদকের "সহায়ক" ধারণার সাথে এর সম্পর্ক মানুষের মূল্যায়নের বিপরীতে কঠোরভাবে যাচাই করা হয়নি।
3. পদ্ধতি ও মূল্যায়নকৃত অ্যালগরিদম
এই গবেষণাটি বেশ কয়েকটি ফাজি ম্যাচ অ্যালগরিদম মূল্যায়ন করে, সহজ বেসলাইন থেকে অনুমিত শিল্প মানদণ্ড এবং শেষ পর্যন্ত একটি নতুন প্রস্তাবনার দিকে অগ্রসর হয়।
3.1. বেসলাইন অ্যালগরিদম
সহজ বেসলাইনগুলির মধ্যে রয়েছে সঠিক স্ট্রিং ম্যাচিং এবং টোকেন-ভিত্তিক ওভারল্যাপ মেট্রিক (যেমন, শব্দ টোকেনে জ্যাকার্ড সাদৃশ্য)। এগুলি একটি নিম্ন-সীমার কর্মদক্ষতা বেঞ্চমার্ক হিসাবে কাজ করে।
3.2. এডিট ডিসট্যান্স (লেভেনশটাইন)
যে অ্যালগরিদমটি বাণিজ্যিকভাবে ব্যবহৃত হয় বলে ব্যাপকভাবে বিশ্বাস করা হয়। দুটি স্ট্রিং $S$ (সোর্স) এবং $T$ (প্রার্থী) দেওয়া হলে, লেভেনশটাইন দূরত্ব $lev_{S,T}(|S|, |T|)$ গতিশীলভাবে গণনা করা হয়। সাদৃশ্য স্কোর প্রায়শই এভাবে উদ্ভূত হয়: $sim = 1 - \frac{lev_{S,T}(|S|, |T|)}{\max(|S|, |T|)}$।
3.3. প্রস্তাবিত ওয়েটেড এন-গ্রাম প্রিসিশন
গবেষণাপত্রের মূল অবদান হল একটি নতুন অ্যালগরিদম যা ব্লিউ-এর মতো মেশিন ট্রান্সলেশন মূল্যায়ন মেট্রিক দ্বারা অনুপ্রাণিত, কিন্তু টিএম পুনরুদ্ধার কাজের জন্য অভিযোজিত। এটি নতুন সোর্স বাক্য এবং টিএমবি-তে একটি প্রার্থী সোর্স বাক্যের মধ্যে মিলে যাওয়া এন-গ্রামগুলির (n শব্দের ধারাবাহিক ক্রম) একটি ওয়েটেড প্রিসিশন গণনা করে। ওয়েটিংটি অনুবাদকের ম্যাচের দৈর্ঘ্যের পছন্দ প্রতিফলিত করার জন্য সামঞ্জস্য করা যেতে পারে, দীর্ঘতর ধারাবাহিক ম্যাচগুলিকে উচ্চতর ওজন দেয়, যা প্রায়শই ছড়িয়ে ছিটিয়ে থাকা সংক্ষিপ্ত ম্যাচগুলির চেয়ে বেশি উপযোগী।
3.4. ক্রাউডসোর্সিং-এর মাধ্যমে মানুষের মূল্যায়ন
একটি গুরুত্বপূর্ণ পদ্ধতিগত শক্তি হল মানুষের মূল্যায়নকে স্বর্ণমান হিসাবে ব্যবহার করা। অ্যামাজনের মেকানিক্যাল টার্ক ব্যবহার করে, মানুষের মূল্যায়নকারীদের একটি নতুন সোর্স বাক্য এবং বিভিন্ন অ্যালগরিদম দ্বারা পুনরুদ্ধার করা বেশ কয়েকটি প্রার্থী অনুবাদ উপস্থাপন করা হয়েছিল। তারা বিচার করেছিল কোন প্রার্থীটি নতুন সোর্স অনুবাদের জন্য "সবচেয়ে সহায়ক"। এটি প্রতিটি অ্যালগরিদমের ব্যবহারিক উপযোগিতা সরাসরি পরিমাপ করে, সিমার্ড ও ফুজিতা (২০১২) দ্বারা উল্লিখিত পুনরুদ্ধার ও মূল্যায়ন উভয়ের জন্য এমটি মেট্রিক ব্যবহার করার সময় বৃত্তাকার মূল্যায়ন পক্ষপাত এড়িয়ে যায়।
4. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন
টিএমবি থেকে একটি নতুন সোর্স $S$ এবং একটি প্রার্থী সোর্স $S_c$ দেওয়া হলে, একটি প্রার্থী অনুবাদ $C$-এর জন্য প্রস্তাবিত ওয়েটেড এন-গ্রাম প্রিসিশন (ডব্লিউএনপি) স্কোর নিম্নরূপ সূত্রায়িত করা হয়েছে:
ধরা যাক $G_n(S)$ বাক্য $S$-এর সমস্ত এন-গ্রামের সেট। এন-গ্রাম প্রিসিশন $P_n$ হল:
$P_n = \frac{\sum_{g \in G_n(S) \cap G_n(S_c)} w(g)}{\sum_{g \in G_n(S_c)} w(g)}$
যেখানে $w(g)$ একটি ওজন ফাংশন। একটি সহজ কিন্তু কার্যকর স্কিম হল দৈর্ঘ্য-ভিত্তিক ওয়েটিং: $w(g) = |g|^\alpha$, যেখানে $|g|$ হল এন-গ্রাম দৈর্ঘ্য (n) এবং $\alpha$ একটি টিউনযোগ্য প্যারামিটার ($\alpha > 0$) যা দীর্ঘতর ম্যাচের পছন্দ নিয়ন্ত্রণ করে। চূড়ান্ত ডব্লিউএনপি স্কোর হল বিভিন্ন এন-গ্রাম ক্রমের (যেমন, ইউনিগ্রাম, বিগ্রাম, ট্রিগ্রাম) প্রিসিশনের একটি ওয়েটেড জ্যামিতিক গড়, ব্লিউ-এর মতো কিন্তু কাস্টমাইজযোগ্য ওজন $w(g)$ সহ।
এটি এডিট ডিসট্যান্সের বিপরীতে, যা অক্ষর স্তরে কাজ করে এবং স্বভাবতই বহু-শব্দের বাক্যাংশের মতো ভাষাগতভাবে অর্থপূর্ণ এককগুলিকে অগ্রাধিকার দেয় না।
5. পরীক্ষামূলক ফলাফল ও বিশ্লেষণ
পরীক্ষাগুলি রোবাস্টনেস নিশ্চিত করার জন্য একাধিক ডোমেইন (যেমন, প্রযুক্তিগত, আইনি) এবং ভাষা জোড়ায় পরিচালিত হয়েছিল।
5.1. মানুষের মূল্যায়নের সাথে সম্পর্ক
প্রাথমিক ফলাফল হল যে প্রস্তাবিত ওয়েটেড এন-গ্রাম প্রিসিশন (ডব্লিউএনপি) অ্যালগরিদম ধারাবাহিকভাবে মানক এডিট ডিসট্যান্স অ্যালগরিদমের তুলনায় "সহায়ক" বিষয়ে মানুষের মূল্যায়নের সাথে উচ্চতর সম্পর্ক দেখিয়েছে। এই ফলাফলটি এই নির্দিষ্ট কাজের জন্য এডিট ডিসট্যান্সের অনুমিত শ্রেষ্ঠত্বকে চ্যালেঞ্জ করে। বেসলাইনগুলি, যেমন প্রত্যাশিত, খারাপভাবে সম্পাদিত হয়েছে।
মূল ফলাফল সারসংক্ষেপ
মানুষের পছন্দ অনুযায়ী অ্যালগরিদম র্যাঙ্কিং: ওয়েটেড এন-গ্রাম প্রিসিশন > এডিট ডিসট্যান্স > সরল টোকেন ওভারল্যাপ।
ব্যাখ্যা: অনুবাদকরা দীর্ঘতর, ধারাবাহিক বাক্যাংশ ওভারল্যাপ সহ ম্যাচগুলিকে ন্যূনতম অক্ষর সম্পাদনা কিন্তু খণ্ডিত শব্দ সারিবদ্ধতা সহ ম্যাচগুলির চেয়ে বেশি উপযোগী বলে মনে করেন।
5.2. বিভিন্ন ডোমেইন ও ভাষা জোড়ায় কর্মদক্ষতা
ডব্লিউএনপি অ্যালগরিদমের শ্রেষ্ঠত্ব বিভিন্ন টেক্সচুয়াল ডোমেইন এবং বিভিন্ন ভাষা জোড়ার জন্য বজায় ছিল। এটি এর রোবাস্টনেস এবং সাধারণ প্রযোজ্যতা নির্দেশ করে, একটি নির্দিষ্ট ধরনের পাঠ্য বা ভাষা কাঠামোর সাথে আবদ্ধ নয়।
চার্ট বর্ণনা (কল্পিত): একটি বার চার্ট দেখাবে যে প্রতিটি অ্যালগরিদমের শীর্ষ পরামর্শ কত শতাংশ সময় মানুষের মূল্যায়নকারীদের দ্বারা "সবচেয়ে সহায়ক" হিসাবে বেছে নেওয়া হয়েছিল। "ওয়েটেড এন-গ্রাম প্রিসিশন" এর বারটি বিভিন্ন ডোমেইন (প্রযুক্তিগত, চিকিৎসা, সংবাদ) প্রতিনিধিত্বকারী একাধিক গ্রুপড বারের মধ্যে "এডিট ডিসট্যান্স" এর বারের চেয়ে উল্লেখযোগ্যভাবে লম্বা হবে।
6. বিশ্লেষণ কাঠামো: একটি কেস স্টাডি
পরিস্থিতি: নতুন সোর্স বাক্য "Configure the advanced security settings for the network protocol." অনুবাদ করা।
টিএমবি প্রার্থী ১ (সোর্স): "Configure the security settings for the application."
টিএমবি প্রার্থী ২ (সোর্স): "The advanced network protocol settings are crucial."
- এডিট ডিসট্যান্স: কম অক্ষর সম্পাদনার কারণে ("application" কে "network protocol" এ পরিবর্তন করা) প্রার্থী ১-কে সামান্য পক্ষপাতিত্ব করতে পারে।
- ওয়েটেড এন-গ্রাম প্রিসিশন (দৈর্ঘ্য পছন্দ সহ): প্রার্থী ২-কে দৃঢ়ভাবে পক্ষপাতিত্ব করবে। এটি মূল, দীর্ঘতর বাক্যাংশ "advanced network protocol settings" (একটি ৪-গ্রাম) ভাগ করে, যা একটি প্রযুক্তিগতভাবে সুনির্দিষ্ট একক। এই সঠিক বাক্যাংশটি পুনরায় ব্যবহার করা অনুবাদকের জন্য অত্যন্ত মূল্যবান, এমনকি যদি বাকি বাক্য কাঠামো আরও বেশি আলাদা হয়।
এই কেসটি চিত্রিত করে যে কীভাবে ডব্লিউএনপি উপযোগী অনুবাদ মেমরি ম্যাচের "খণ্ডিততা" কে আরও ভালভাবে ধারণ করে—অনুবাদকরা প্রায়শই প্রযুক্তিগত বিশেষ্য বাক্যাংশগুলি শব্দগতভাবে পুনরায় ব্যবহার করেন।
7. মূল অন্তর্দৃষ্টি ও বিশ্লেষকের দৃষ্টিভঙ্গি
মূল অন্তর্দৃষ্টি: অনুবাদ শিল্প ভুল মেট্রিকের জন্য অপ্টিমাইজ করছে। দশকের পর দশক ধরে, বাণিজ্যিক টিএম সিস্টেমের গোপন কেন্দ্রটি সম্ভবত একটি অক্ষর-স্তরের এডিট ডিসট্যান্স ছিল, যা শব্দার্থিক পুনঃব্যবহারের চেয়ে বানান-পরীক্ষণের জন্য বেশি উপযুক্ত একটি সরঞ্জাম। ব্লাডগুড ও স্ট্রসের কাজ এই অসামঞ্জস্য প্রকাশ করে, প্রমাণ করে যে অনুবাদকদের জন্য গুরুত্বপূর্ণ হল বাক্যাংশগত সংহতি, ন্যূনতম অক্ষর টুইক নয়। তাদের ওয়েটেড এন-গ্রাম প্রিসিশন অ্যালগরিদমটি কেবল একটি ক্রমবর্ধমান উন্নতি নয়; এটি অর্থপূর্ণ ভাষাগত খণ্ডগুলি ধারণের দিকে একটি মৌলিক পুনঃক্যালিব্রেশন, মেশিনের পুনরুদ্ধার যুক্তিকে পুনরায় ব্যবহারযোগ্য খণ্ডগুলির সুবিধা নেওয়ার মানুষের অনুবাদকের জ্ঞানীয় প্রক্রিয়ার সাথে সারিবদ্ধ করে।
যুক্তিগত প্রবাহ: গবেষণাপত্রের যুক্তি আকর্ষণীয়ভাবে সহজ: ১) এডিট ডিসট্যান্সের উপর শিল্পের ব্ল্যাক-বক্স নির্ভরতা স্বীকার করুন। ২) অনুমান করুন যে এর অক্ষর-স্তরের ফোকাস মানুষের উপযোগিতার সাথে মিল নাও থাকতে পারে। ৩) একটি শব্দ/বাক্যাংশ-কেন্দ্রিক বিকল্প (ডব্লিউএনপি) প্রস্তাব করুন। ৪) গুরুত্বপূর্ণভাবে, সত্যকে ক্রাউডসোর্সড মানুষের পছন্দে ভিত্তি করে এমটি মেট্রিক ব্যবহার করে অভ্যন্তরীণ মূল্যায়নের ফাঁদ অতিক্রম করুন। এই শেষ ধাপটি হল মাস্টারস্ট্রোক—এটি তাত্ত্বিক সাদৃশ্য থেকে ব্যবহারিক সহায়কতার দিকে বিতর্ক সরিয়ে নেয়।
শক্তি ও ত্রুটি: শক্তি হল এর অভিজ্ঞতামূলক, হিউম্যান-ইন-দ্য-লুপ বৈধতা, একটি পদ্ধতি যা সাইকেলজিএএন-এর ইমেজ ট্রান্সলেশন গুণমান (ঝু এট আল., "আনপেয়ার্ড ইমেজ-টু-ইমেজ ট্রান্সলেশন ইউজিং সাইকেল-কনসিসটেন্ট অ্যাডভারসারিয়াল নেটওয়ার্কস," আইসিসিভি ২০১৭) যাচাই করার জন্য ব্যবহৃত কঠোর মানুষের মূল্যায়নের কথা মনে করিয়ে দেয়। ত্রুটি, লেখকদের দ্বারা স্বীকৃত, হল স্কেল। যদিও ডব্লিউএনপি গুণমানের উপর শ্রেষ্ঠত্ব দেখায়, বিশাল, বাস্তব-বিশ্বের টিএমবি-এর বিপরীতে ম্যাচিং-এর জন্য এর গণনামূলক খরচ অপ্টিমাইজড এডিট ডিসট্যান্সের চেয়ে বেশি। এটি হল ক্লাসিক একুরেসি-স্পিড ট্রেড-অফ। তদুপরি, বৃহৎ-স্কেল নিউরাল পুনরুদ্ধার সিস্টেমে (যেমন, ঘন প্যাসেজ পুনরুদ্ধারে ফেয়ারের কাজ) দেখা গেছে, এমবেডিং ব্যবহার করে সারফেস-ফর্ম ম্যাচিং-এর বাইরে গিয়ে শব্দার্থিক সাদৃশ্যে যাওয়া পরবর্তী লাফ হতে পারে, একটি দিকনির্দেশনা যা এই গবেষণাপত্রটি প্রস্তুত করে কিন্তু অন্বেষণ করে না।
কার্যকরী অন্তর্দৃষ্টি: টিএম বিক্রেতাদের জন্য, ম্যান্ডেটটি স্পষ্ট: ব্ল্যাক বক্সটি খুলুন এবং এডিট ডিসট্যান্সের বাইরে উদ্ভাবন করুন। একটি ডব্লিউএনপি-সদৃশ উপাদান একীভূত করা, সম্ভবত একটি দ্রুত প্রাথমিক এডিট-ডিসট্যান্স ফিল্টারের উপরে একটি পুনঃর্যাঙ্কিং স্তর হিসাবে, তাৎক্ষণিক ইউএক্স উন্নতি আনতে পারে। লোকালাইজেশন ম্যানেজারদের জন্য, এই গবেষণাটি একটি কাঠামো প্রদান করে টিএম সরঞ্জামগুলি কেবল ম্যাচ শতাংশের উপর নয়, বরং সেই ম্যাচগুলির গুণমানের উপর মূল্যায়ন করার জন্য। বিক্রেতাদের জিজ্ঞাসা করুন: "আপনি কীভাবে নিশ্চিত করেন যে আপনার ফাজি ম্যাচগুলি প্রাসঙ্গিকভাবে প্রাসঙ্গিক, কেবল অক্ষর-ভিত্তিক কাছাকাছি নয়?" ভবিষ্যৎটি হাইব্রিড সিস্টেমগুলির মধ্যে রয়েছে যা এডিট ডিসট্যান্সের দক্ষতা, ডব্লিউএনপি-এর বাক্যাংশগত বুদ্ধিমত্তা এবং নিউরাল মডেলের শব্দার্থিক বোঝার সংমিশ্রণ করে—একটি সংশ্লেষণ যা এই গবেষণাপত্রটি আকর্ষণীয়ভাবে শুরু করে।
8. ভবিষ্যৎ প্রয়োগ ও গবেষণার দিকনির্দেশ
- হাইব্রিড পুনরুদ্ধার সিস্টেম: স্কেলযোগ্য, উচ্চ-গুণমানের পুনরুদ্ধারের জন্য দ্রুত, অগভীর ফিল্টার (এডিট ডিসট্যান্সের মতো) আরও সঠিক, গভীর পুনঃর্যাঙ্কার (ডব্লিউএনপি বা নিউরাল মডেলের মতো) এর সাথে একত্রিত করা।
- নিউরাল মেশিন ট্রান্সলেশন (এনএমটি) এর সাথে একীকরণ: বড় ভাষা মডেলে কে-নিয়ারেস্ট নেইবার বা রিট্রিভাল-অগমেন্টেড জেনারেশন (আরএজি) কীভাবে কাজ করে তার মতো এনএমটি সিস্টেমের জন্য একটি প্রসঙ্গ প্রদানকারী হিসাবে টিএম পুনরুদ্ধার ব্যবহার করা। এখানে পুনরুদ্ধারকৃত সেগমেন্টগুলির গুণমান আরও গুরুত্বপূর্ণ হয়ে ওঠে।
- ব্যক্তিগতকৃত ওয়েটিং: ডব্লিউএনপি অ্যালগরিদমে $\alpha$ প্যারামিটারটি পৃথক অনুবাদক শৈলী বা নির্দিষ্ট প্রকল্পের প্রয়োজনীয়তার ভিত্তিতে অভিযোজন করা (যেমন, আইনি অনুবাদ বিপণন অনুবাদের চেয়ে সঠিক বাক্যাংশ ম্যাচকে বেশি মূল্য দিতে পারে)।
- ক্রস-লিঙ্গুয়াল শব্দার্থিক ম্যাচিং: স্ট্রিং-ভিত্তিক ম্যাচিং-এর বাইরে গিয়ে বহুভাষিক বাক্য এমবেডিং (যেমন, সেন্টেন্স-বার্টের মতো মডেল থেকে) ব্যবহার করে শব্দার্থিকভাবে অনুরূপ সেগমেন্টগুলি খুঁজে বের করা এমনকি যখন সারফেস ফর্মগুলি আলাদা হয়, যা সমস্ত বর্তমান পদ্ধতির একটি প্রধান সীমাবদ্ধতা সমাধান করে।
- টিএম কিউরেশনের জন্য অ্যাক্টিভ লার্নিং: উন্নত ম্যাচিং অ্যালগরিদম থেকে আত্মবিশ্বাসের স্কোর ব্যবহার করে পরামর্শ দেওয়া যে কোন নতুন অনুবাদগুলি টিএমবি-তে যোগ করার জন্য অগ্রাধিকার দেওয়া উচিত, এর বৃদ্ধি ও প্রাসঙ্গিকতা অপ্টিমাইজ করা।
9. তথ্যসূত্র
- Bloodgood, M., & Strauss, B. (2014). Translation Memory Retrieval Methods. In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics (pp. 202-210).
- Arthern, P. J. (1978). Machine Translation and Computerized Terminology Systems—A Translator’s Viewpoint. Translating and the Computer.
- Kay, M. (1980). The Proper Place of Men and Machines in Language Translation. Xerox PARC Technical Report.
- Koehn, P., & Senellart, J. (2010). Convergence of Translation Memory and Statistical Machine Translation. Proceedings of AMTA.
- Simard, M., & Fujita, A. (2012). A Poor Man's Translation Memory Using Machine Translation Evaluation Metrics. Proceedings of AMTA.
- Christensen, T. P., & Schjoldager, A. (2010). Translation Memory (TM) Research: What Do We Know and How Do We Know It? Hermes – Journal of Language and Communication in Business.
- Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).