সূচিপত্র
- 1.1 একটি সংক্ষিপ্ত ইতিহাস
- 1.2 নিউরাল নেটওয়ার্কের পরিচিতি
- 1.3 কম্পিউটেশন গ্রাফ
- 1.4 নিউরাল ভাষা মডেল
- 1.5 নিউরাল অনুবাদ মডেল
- 1.6 উন্নতিসাধন
- 1.7 বিকল্প আর্কিটেকচার
- 1.8 বর্তমান চ্যালেঞ্জসমূহ
- 1.9 অতিরিক্ত বিষয়াবলী
1.1 একটি সংক্ষিপ্ত ইতিহাস
নিউরাল মেশিন ট্রান্সলেশন (এনএমটি) ঐতিহ্যগত পরিসংখ্যানিক পদ্ধতি থেকে একটি প্যারাডাইম শিফটের প্রতিনিধিত্ব করে। ১৯৯০-এর দশকের প্রাথমিক প্রচেষ্টাগুলি কম্পিউটেশনাল শক্তি এবং ডেটার সীমাবদ্ধতার কারণে সীমিত ছিল। ২০১০-এর দশকে গভীর শিক্ষণ, জিপিইউ এবং বৃহৎ সমান্তরাল কর্পোরার চালনায় পুনরুত্থান ঘটে, যা অ্যাটেনশন আর্কিটেকচার সহ প্রভাবশালী এনকোডার-ডিকোডার মডেলের জন্ম দেয়, যা ফ্রেজ-ভিত্তিক এসএমটিকে সাবলীলতা এবং দীর্ঘ-পরিসরের নির্ভরতা পরিচালনায় ছাড়িয়ে যায়।
1.2 নিউরাল নেটওয়ার্কের পরিচিতি
এই বিভাগটি এনএমটি মডেল বোঝার জন্য গাণিতিক ও ধারণাগত ভিত্তি স্থাপন করে, মৌলিক বিল্ডিং ব্লক থেকে শুরু করে।
1.2.1 রৈখিক মডেল
সরলতম নিউরাল ইউনিট: $y = \mathbf{w}^T \mathbf{x} + b$, যেখানে $\mathbf{w}$ হল ওজন ভেক্টর, $\mathbf{x}$ হল ইনপুট, এবং $b$ হল পক্ষপাত। এটি একটি রৈখিক রূপান্তর সম্পাদন করে।
1.2.2 একাধিক স্তর
রৈখিক স্তরগুলিকে স্তূপীকরণ: $\mathbf{h} = \mathbf{W}^{(2)}(\mathbf{W}^{(1)}\mathbf{x} + \mathbf{b}^{(1)}) + \mathbf{b}^{(2)}$। তবে, এটি এখনও শুধুমাত্র একটি রৈখিক রূপান্তর। শক্তি আসে স্তরগুলির মধ্যে অ-রৈখিকতা যোগ করার মাধ্যমে।
1.2.3 অ-রৈখিকতা
সিগময়েড ($\sigma(x) = \frac{1}{1+e^{-x}}$), ট্যানহ, এবং রিলু ($f(x)=max(0,x)$) এর মতো অ্যাক্টিভেশন ফাংশনগুলি অ-রৈখিকতা প্রবর্তন করে, যা নেটওয়ার্ককে ভাষার জন্য অপরিহার্য জটিল, অ-রৈখিক ম্যাপিং শিখতে দেয়।
1.2.4 ইনফারেন্স
নেটওয়ার্কের মাধ্যমে ফরোয়ার্ড পাস যা একটি ইনপুট দেওয়া হলে একটি আউটপুট গণনা করে। একটি ২-স্তর বিশিষ্ট নেটওয়ার্কের জন্য: $\mathbf{h} = f(\mathbf{W}_1\mathbf{x}+\mathbf{b}_1)$, $\mathbf{y} = g(\mathbf{W}_2\mathbf{h}+\mathbf{b}_2)$।
1.2.5 ব্যাক-প্রোপাগেশন প্রশিক্ষণ
প্রশিক্ষণের মূল অ্যালগরিদম। এটি চেইন রুল ব্যবহার করে সমস্ত নেটওয়ার্ক প্যারামিটার ($\theta$) এর সাপেক্ষে একটি লস ফাংশন $L$ এর গ্রেডিয়েন্ট গণনা করে: $\frac{\partial L}{\partial \theta} = \frac{\partial L}{\partial \mathbf{y}} \frac{\partial \mathbf{y}}{\partial \mathbf{h}} ... \frac{\partial \mathbf{h}}{\partial \theta}$। তারপর গ্রেডিয়েন্ট ডিসেন্টের মাধ্যমে প্যারামিটারগুলি আপডেট করা হয়: $\theta \leftarrow \theta - \eta \frac{\partial L}{\partial \theta}$।
1.2.6 উন্নতিসাধন
প্রশিক্ষণ উন্নত করার কৌশল নিয়ে আলোচনা করে: অপ্টিমাইজেশন অ্যালগরিদম (অ্যাডাম, আরএমএসপ্রপ), নিয়মিতকরণ (ড্রপআউট, এল২), এবং ওজন ইনিশিয়ালাইজেশন কৌশল (জেভিয়ার, হে)।
1.3 কম্পিউটেশন গ্রাফ
টেনসরফ্লো এবং পাইটর্চের মতো ফ্রেমওয়ার্কগুলি নিউরাল নেটওয়ার্কগুলিকে নির্দেশিত অ্যাসাইক্লিক গ্রাফ (ডিএজি) হিসাবে উপস্থাপন করে। নোডগুলি হল অপারেশন (যোগ, গুণ, অ্যাক্টিভেশন) এবং এজগুলি হল টেনসর (ডেটা)। এই বিমূর্ততা ব্যাকপ্রপাগেশনের জন্য স্বয়ংক্রিয় পার্থক্যকরণ এবং জিপিইউতে দক্ষ নির্বাহ সক্ষম করে।
1.4 নিউরাল ভাষা মডেল
এনএমটি নিউরাল ভাষা মডেল (এনএলএম) এর উপর নির্মিত, যা শব্দের একটি ক্রমকে সম্ভাব্যতা নির্ধারণ করে: $P(w_1, ..., w_T)$। মূল আর্কিটেকচারগুলির মধ্যে রয়েছে ফিড-ফরওয়ার্ড এনএলএম (একটি নির্দিষ্ট প্রসঙ্গ উইন্ডো ব্যবহার করে) এবং আরও শক্তিশালী রিকারেন্ট নিউরাল নেটওয়ার্ক (আরএনএন), যার মধ্যে রয়েছে লং শর্ট-টার্ম মেমরি (এলএসটিএম) এবং গেটেড রিকারেন্ট ইউনিট (জিআরইউ), যা পরিবর্তনশীল দৈর্ঘ্যের ক্রমগুলি পরিচালনা করতে এবং দীর্ঘমেয়াদী নির্ভরতা ক্যাপচার করতে পারে।
1.5 নিউরাল অনুবাদ মডেল
এনএমটির মূল। এনকোডার-ডিকোডার আর্কিটেকচার: একটি এনকোডার আরএনএন সোর্স বাক্যটিকে একটি প্রসঙ্গ ভেক্টরে প্রক্রিয়া করে, যা একটি ডিকোডার আরএনএন টার্গেট বাক্যটি শব্দে শব্দে তৈরি করতে ব্যবহার করে। প্রধান সাফল্য ছিল অ্যাটেনশন মেকানিজম, যা ডিকোডারকে জেনারেশনের সময় সোর্স বাক্যের বিভিন্ন অংশে গতিশীলভাবে ফোকাস করতে দেয়, সমস্ত তথ্যকে একটি একক নির্দিষ্ট-দৈর্ঘ্যের ভেক্টরে সংকুচিত করার বাধা দূর করে। অ্যালাইনমেন্ট অন্তর্নিহিতভাবে শেখা হয়।
1.6 উন্নতিসাধন
এই অধ্যায়টি এনএমটি কর্মক্ষমতা এগিয়ে নেওয়ার জন্য উন্নত কৌশলগুলির বিস্তারিত বর্ণনা দেয়: এনসেম্বল ডিকোডিং (একাধিক মডেল থেকে ভবিষ্যদ্বাণীগুলির গড়), সাবওয়ার্ড ইউনিট (বাইট-পেয়ার এনকোডিং) বা স্যাম্পলিং কৌশলের মাধ্যমে বৃহৎ শব্দভাণ্ডার পরিচালনা, ব্যাক-ট্রান্সলেশনের মাধ্যমে একভাষী ডেটা ব্যবহার, গভীর মডেল (স্তূপীকৃত আরএনএন/ট্রান্সফরমার) তৈরি এবং নতুন ডোমেনে অভিযোজন এর পদ্ধতি।
1.7 বিকল্প আর্কিটেকচার
আরএনএন-ভিত্তিক এনকোডার-ডিকোডার ছাড়িয়ে আর্কিটেকচারগুলি অন্বেষণ করে: ক্রমগুলির সমান্তরাল প্রক্রিয়াকরণের জন্য কনভোলিউশনাল নিউরাল নেটওয়ার্ক (সিএনএন), এবং সম্পূর্ণরূপে সেলফ-অ্যাটেনশন মেকানিজমের উপর ভিত্তি করে বিপ্লবী ট্রান্সফরমার মডেল, যা এর উচ্চতর সমান্তরালতা এবং দীর্ঘ-পরিসরের নির্ভরতা মডেল করার ক্ষমতার কারণে সর্বশেষ প্রযুক্তিতে পরিণত হয়েছে।
1.8 বর্তমান চ্যালেঞ্জসমূহ
সাফল্য সত্ত্বেও, এনএমটি বাধার সম্মুখীন হচ্ছে: ডোমেন মিসম্যাচ (ডোমেনের বাইরের টেক্সটে কর্মক্ষমতা হ্রাস), প্রশিক্ষণ ডেটার বৃহৎ পরিমাণ এর উপর নির্ভরতা, নয়েজি ডেটা এর প্রতি সংবেদনশীলতা, স্পষ্ট, ব্যাখ্যাযোগ্য শব্দ অ্যালাইনমেন্ট এর অভাব, এবং বীম সার্চ ডিকোডিং-এ সাবঅপটিমাল সার্চ সমস্যা যা অনুবাদ ত্রুটির দিকে নিয়ে যেতে পারে।
1.9 অতিরিক্ত বিষয়াবলী
আরও পড়ার এবং গভীরভাবে আচ্ছাদিত নয় এমন উদীয়মান ক্ষেত্রগুলির দিকে নির্দেশ করে, যেমন মাল্টিমোডাল অনুবাদ, আনসুপারভাইজড এনএমটি, এবং অনুবাদের নীতিশাস্ত্র।
মূল বিশ্লেষণ: এনএমটি বিপ্লব এবং এর অসন্তোষ
মূল অন্তর্দৃষ্টি: কোহেনের খসড়াটি একটি ইনফ্লেকশন পয়েন্টে এনএমটি ক্যাপচার করে—পোস্ট-অ্যাটেনশন, প্রি-ট্রান্সফরমার। মূল অন্তর্দৃষ্টি হল যে এনএমটির পরিসংখ্যানিক এমটি (এসএমটি) এর উপর বিজয় শুধুমাত্র ভাল স্কোর সম্পর্কে নয়; এটি বিচ্ছিন্ন বাক্যাংশ নিপুণ করা থেকে অর্থের অবিচ্ছিন্ন, বিতরণকৃত উপস্থাপনা শেখার দিকে একটি মৌলিক পরিবর্তন ছিল। অ্যাটেনশন মেকানিজম, যেমন ভাসওয়ানি এবং সহকর্মীদের (২০১৭) যুগান্তকারী "অ্যাটেনশন ইজ অল ইউ নিড" পেপারে বিস্তারিত বর্ণনা করা হয়েছে, ছিল কিলার অ্যাপ, যা গতিশীলভাবে নরম, শেখার যোগ্য অ্যালাইনমেন্ট তৈরি করে এবং প্রাথমিক এনকোডার-ডিকোডারের তথ্য বাধা সমাধান করে। এটি অনুবাদকে আরও সাবলীল এবং প্রসঙ্গ-সচেতন করে তোলে, কিন্তু স্পষ্ট, ব্যাখ্যাযোগ্য অ্যালাইনমেন্ট টেবিলের খরচে যা এসএমটির ভিত্তি ছিল।
লজিক্যাল ফ্লো এবং শক্তি: নথির গঠনটি আদর্শ, প্রথম নীতি (লিনিয়ার অ্যালজেব্রা, ব্যাকপ্রপ) থেকে শুরু করে বিশেষায়িত উপাদান (এলএসটিএম, অ্যাটেনশন) পর্যন্ত গড়ে তোলে। এই শিক্ষামূলক প্রবাহটি ক্ষেত্রের নিজস্ব উন্নয়নকে প্রতিফলিত করে। উপস্থাপিত প্যারাডাইমের মহান শক্তি হল এর এন্ড-টু-এন্ড ডিফারেনশিয়েবিলিটি। পাইপলাইনড, ব্যাপকভাবে ফিচার-ইঞ্জিনিয়ারড এসএমটি সিস্টেমের বিপরীতে, একটি এনএমটি মডেল হল একটি একক নিউরাল নেটওয়ার্ক যা সরাসরি অনুবাদ উদ্দেশ্যের জন্য অপ্টিমাইজ করা হয়। এটি আরও সুসংগত আউটপুটের দিকে নিয়ে যায়, যেমন প্রাথমিক এনএমটি পেপারগুলিতে (যেমন, বাহদানাউ এবং সহকর্মী, ২০১৫) রিপোর্ট করা সাবলীলতার মতো মানব মূল্যায়ন মেট্রিক্সে নাটকীয় উন্নতি দ্বারা প্রমাণিত। আর্কিটেকচারটিও আরও মার্জিত, অনেক কম বাহ্যিক টুলিং (যেমন, পৃথক অ্যালাইনার, ফ্রেজ টেবিল) প্রয়োজন।
ত্রুটি এবং সমালোচনামূলক ফাঁক: তবে, খসড়াটি, এর ২০১৭ সালের ভিন্টেজ প্রতিফলিত করে, আসন্ন ত্রুটিগুলির ইঙ্গিত দেয় কিন্তু কম গুরুত্ব দেয়। এটি যে আরএনএন-ভিত্তিক মডেলগুলিতে ফোকাস করে তা স্বভাবতই অনুক্রমিক, যা প্রশিক্ষণকে বেদনাদায়কভাবে ধীর করে তোলে। আরও সমালোচনামূলকভাবে, "ব্ল্যাক বক্স" প্রকৃতিটি একটি গুরুতর ত্রুটি। যখন একটি এনএমটি মডেল একটি ত্রুটি করে, তখন কেন তা নির্ণয় করা কুখ্যাতভাবে কঠিন—এসএমটির সাথে একটি স্পষ্ট বৈপরীত্য যেখানে আপনি ফ্রেজ টেবিল এবং বিকৃতি মডেল পরিদর্শন করতে পারতেন। চ্যালেঞ্জ অধ্যায়টি এটি স্পর্শ করে (ডোমেন মিসম্যাচ, বীম সার্চ প্যাথলজি), কিন্তু এনএমটি স্থাপনকারী উদ্যোগগুলির জন্য অপারেশনাল ঝুঁকি উল্লেখযোগ্য। তদুপরি, মডেলের কর্মক্ষমতা সমান্তরাল ডেটার পরিমাণ এবং গুণমানের প্রতি অত্যন্ত সংবেদনশীল, যা কম-সম্পদ ভাষার জন্য প্রবেশের একটি উচ্চ বাধা তৈরি করে।
কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারীদের জন্য, এই নথিটি এখন "শাস্ত্রীয়" এনএমটি পদ্ধতির একটি ব্লুপ্রিন্ট। কার্যকরী অন্তর্দৃষ্টি হল যে এই আর্কিটেকচারটি বেসলাইন, কিন্তু ভবিষ্যৎ—এবং বর্তমান সর্বশেষ প্রযুক্তি—ট্রান্সফরমারে অবস্থিত। উন্নতিসাধন বিভাগ (এনসেম্বল, বিইপি, ব্যাক-ট্রান্সলেশন) অত্যন্ত প্রাসঙ্গিক রয়ে গেছে। নির্মাতাদের জন্য সমালোচনামূলক টেকওয়ে হল ২০১৭ মডেল প্রতিলিপি করা বন্ধ না করা। ট্রান্সফরমার-ভিত্তিক মডেলগুলিতে (যেমন হাগিং ফেসের ট্রান্সফরমার লাইব্রেরি থেকে) বিনিয়োগ করুন এবং ব্যাক-ট্রান্সলেশন এবং নয়েজ ক্লিনিংয়ের জন্য শক্তিশালী ডেটা পাইপলাইনের সাথে জুড়ে দিন। গবেষকদের জন্য, উন্মুক্ত চ্যালেঞ্জগুলি—দক্ষ কম-সম্পদ শিক্ষণ, ব্যাখ্যাযোগ্যতা, এবং শক্তিশালী ডিকোডিং—এখানে রূপরেখা দেওয়া হয়েছে উর্বর ভূমি রয়ে গেছে। পরবর্তী সাফল্য শুধুমাত্র আর্কিটেকচারে নয়, বরং এই শক্তিশালী কিন্তু ভঙ্গুর মডেলগুলিকে আরও বিশ্বস্ত এবং ডেটা-দক্ষ করে তোলার মধ্যে থাকবে।
প্রযুক্তিগত বিবরণ এবং গাণিতিক ফর্মালিজম
অ্যাটেনশন মেকানিজম গাণিতিকভাবে নিম্নরূপ সংজ্ঞায়িত করা হয়েছে। এনকোডার লুকানো অবস্থা $\mathbf{h}_1, ..., \mathbf{h}_S$ এবং ডিকোডারের পূর্ববর্তী লুকানো অবস্থা $\mathbf{s}_{t-1}$ দেওয়া হলে, ডিকোডিং ধাপ $t$ এর জন্য প্রসঙ্গ ভেক্টর $\mathbf{c}_t$ একটি ওজনযুক্ত যোগফল হিসাবে গণনা করা হয়:
$$e_{t,i} = \text{score}(\mathbf{s}_{t-1}, \mathbf{h}_i)$$
$$\alpha_{t,i} = \frac{\exp(e_{t,i})}{\sum_{j=1}^{S} \exp(e_{t,j})}$$
$$\mathbf{c}_t = \sum_{i=1}^{S} \alpha_{t,i} \mathbf{h}_i$$
যেখানে $\text{score}$ হল একটি ফাংশন যেমন একটি ডট প্রোডাক্ট বা একটি ছোট নিউরাল নেটওয়ার্ক। ডিকোডার তারপর $\mathbf{c}_t$ এবং $\mathbf{s}_{t-1}$ ব্যবহার করে পরবর্তী শব্দ তৈরি করে।
পরীক্ষামূলক ফলাফল এবং চার্ট বর্ণনা
যদিও খসড়াটি নিজেই নির্দিষ্ট চার্ট ধারণ নাও করতে পারে, তবে এটি যে যুগান্তকারী ফলাফলগুলিকে উল্লেখ করে তা সাধারণত দুটি মূল গ্রাফ দেখায়: ১) ব্লিউ স্কোর বনাম প্রশিক্ষণ ধাপ: একটি বৈধতা সেটে (যেমন, ডব্লিউএমটি ইংরেজি-জার্মান) একটি এনএমটি মডেলের ব্লিউ স্কোর ক্রমাগত বৃদ্ধি পায় এবং প্রায়শই চূড়ান্ত এসএমটি বেসলাইনকে ছাড়িয়ে যায়, এর শেখার ক্ষমতা প্রদর্শন করে। ২) অ্যাটেনশন অ্যালাইনমেন্ট ভিজ্যুয়ালাইজেশন: একটি হিটম্যাপ ম্যাট্রিক্স যেখানে সারিগুলি টার্গেট শব্দ এবং কলামগুলি সোর্স শব্দ। তীব্রতা অ্যাটেনশন ওজন $\alpha_{t,i}$ দেখায়। ঘনিষ্ঠভাবে সম্পর্কিত ভাষার জন্য (যেমন, ইংরেজি-ফরাসি) পরিষ্কার, প্রায়-তির্যক ব্যান্ডগুলি মডেলের অন্তর্নিহিত অ্যালাইনমেন্ট শেখার ক্ষমতা প্রদর্শন করে, যখন দূরবর্তী ভাষা জোড়ার জন্য আরও বিচ্ছুরিত প্যাটার্ন উপস্থিত হয়।
বিশ্লেষণ ফ্রেমওয়ার্ক উদাহরণ কেস
কেস: একটি অনুবাদ ত্রুটি নির্ণয় করা।
সমস্যা: এনএমটি সিস্টেম ইংরেজি সোর্স "He poured the contents of the bottle into the glass" কে একটি টার্গেট ভাষায় "He poured the glass into the bottle" হিসাবে অনুবাদ করে। (একটি বিপরীত ত্রুটি)।
ফ্রেমওয়ার্ক প্রয়োগ:
১. ডেটা চেক: এই নির্মাণটি প্রশিক্ষণ সমান্তরাল ডেটায় বিরল কি?
২. অ্যাটেনশন পরিদর্শন: টার্গেটে "glass" এবং "bottle" এর জন্য অ্যাটেনশন ওজন ভিজ্যুয়ালাইজ করুন। মডেলটি কি সঠিক সোর্স শব্দগুলিতে মনোযোগ দিয়েছে? একটি ত্রুটিপূর্ণ অ্যাটেনশন বন্টন প্রাথমিক সন্দেহভাজন হবে।
৩. বীম সার্চ বিশ্লেষণ: যে ধাপে ত্রুটি ঘটেছে সেই ধাপে বীম সার্চ প্রার্থীদের পরীক্ষা করুন। সঠিক অনুবাদটি কি বীমে ছিল কিন্তু মডেল পক্ষপাত বা খারাপভাবে ক্রমাঙ্কিত দৈর্ঘ্য জরিমানার কারণে কম সম্ভাবনা সহ?
৪. প্রসঙ্গ পরীক্ষা: বাক্যটি "He poured the expensive wine into the glass" এ পরিবর্তন করুন। ত্রুটিটি কি অব্যাহত থাকে? যদি না হয়, সমস্যাটি "bottle/glass" সহ-ঘটনার জন্য নির্দিষ্ট হতে পারে।
এই কাঠামোগত পদ্ধতিটি "মডেলটি ভুল" থেকে ডেটা, অ্যাটেনশন এবং সার্চ সম্পর্কে নির্দিষ্ট অনুমানের দিকে এগিয়ে যায়।
ভবিষ্যতের প্রয়োগ এবং দিকনির্দেশ
এনএমটির ভবিষ্যৎ খাঁটি টেক্সট-টু-টেক্সট অনুবাদের বাইরে প্রসারিত:
১. মাল্টিমোডাল অনুবাদ: ইমেজ ক্যাপশন বা ভিডিও সাবটাইটেল অনুবাদ করা যেখানে ভিজ্যুয়াল প্রসঙ্গ টেক্সটকে দ্ব্যর্থতা দূর করে (যেমন, একটি প্রাণীর ছবি বনাম স্পোর্টস সরঞ্জাম সহ "bat" অনুবাদ করা)।
২. রিয়েল-টাইম স্পিচ-টু-স্পিচ অনুবাদ: নিরবচ্ছিন্ন আন্তঃভাষিক কথোপকথনের জন্য কম-লেটেন্সি সিস্টেম, স্বয়ংক্রিয় স্পিচ রিকগনিশন (এএসআর), এনএমটি, এবং টেক্সট-টু-স্পিচ (টিটিএস) একীভূত করে।
৩. নিয়ন্ত্রিত অনুবাদ: মডেলগুলি যা স্টাইল গাইড, পরিভাষা ডাটাবেস, বা আনুষ্ঠানিক/অনানুষ্ঠানিক রেজিস্টার মেনে চলে, যা উদ্যোগ এবং সাহিত্যিক অনুবাদের জন্য অত্যন্ত গুরুত্বপূর্ণ।
৪. ব্যাপকভাবে বহুভাষিক মডেল: একটি একক মডেল যা শত শত ভাষার মধ্যে অনুবাদ করে, ট্রান্সফার লার্নিংয়ের মাধ্যমে কম-সম্পদ জোড়ার জন্য কর্মক্ষমতা উন্নত করে, যেমন এম২এম-১০০ এবং গুগলের ইউএসএম মডেলগুলিতে দেখা যায়।
৫. ইন্টারেক্টিভ এবং অ্যাডাপটিভ এমটি: সিস্টেমগুলি যা পোস্ট-এডিটর সংশোধন থেকে রিয়েল-টাইমে শেখে, নির্দিষ্ট ব্যবহারকারী বা ডোমেনের জন্য আউটপুট ব্যক্তিগতকরণ করে।
তথ্যসূত্র
- Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural machine translation by jointly learning to align and translate. International Conference on Learning Representations (ICLR).
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems (NeurIPS).
- Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. Advances in Neural Information Processing Systems (NeurIPS).
- Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., ... & Dean, J. (2016). Google's neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144.
- Koehn, P. (2009). Statistical Machine Translation. Cambridge University Press. (The broader textbook from which this chapter is derived).