আরবি নিউরাল মেশিন অনুবাদের প্রথম ফলাফল: বিশ্লেষণ ও অন্তর্দৃষ্টি

1. ভূমিকা

এই গবেষণাপত্রটি আরবি ভাষার (আরবি↔ইংরেজি) জন্য একটি পূর্ণাঙ্গ নিউরাল মেশিন অনুবাদ (এনএমটি) সিস্টেমের প্রথম নথিভুক্ত প্রয়োগ উপস্থাপন করে। যদিও ইউরোপীয় ভাষাগুলির জন্য ফ্রেজ-ভিত্তিক পরিসংখ্যানিক মেশিন অনুবাদের (পিবিএসএমটি) একটি প্রধান বিকল্প হিসাবে নিউরাল মেশিন অনুবাদ নিজেকে প্রতিষ্ঠিত করেছিল, আরবির মতো রূপগতভাবে সমৃদ্ধ এবং লিপিগতভাবে জটিল ভাষাগুলির জন্য এর কার্যকারিতা অনাবিষ্কৃত ছিল। পূর্ববর্তী হাইব্রিড পদ্ধতিগুলি পিবিএসএমটি সিস্টেমের মধ্যে বৈশিষ্ট্য হিসাবে নিউরাল নেটওয়ার্ক ব্যবহার করত। এই কাজটি একটি সরল, অ্যাটেনশন-ভিত্তিক এনএমটি সিস্টেম এবং একটি আদর্শ পিবিএসএমটি সিস্টেম (মোজেস) এর মধ্যে একটি সরাসরি, ব্যাপক তুলনা পরিচালনা করে এবং গুরুত্বপূর্ণ আরবি-নির্দিষ্ট প্রাক-প্রক্রিয়াকরণ ধাপগুলির প্রভাব মূল্যায়ন করে এই ফাঁকটি পূরণের লক্ষ্য রাখে।

2. নিউরাল মেশিন অনুবাদ

অ্যাটেনশন-ভিত্তিক এনকোডার-ডিকোডার মডেলটি ব্যবহৃত মূল স্থাপত্য, যা অনুবাদের মতো সিকোয়েন্স-টু-সিকোয়েন্স কাজের জন্য ডি ফ্যাক্টো মানদণ্ড হয়ে উঠেছে।

2.1 অ্যাটেনশন-ভিত্তিক এনকোডার-ডিকোডার

মডেলটিতে তিনটি মূল উপাদান রয়েছে: একটি এনকোডার, একটি ডিকোডার এবং একটি অ্যাটেনশন মেকানিজম। একটি দ্বি-দিকনির্দেশক রিকারেন্ট নিউরাল নেটওয়ার্ক (আরএনএন) এনকোডার উৎস বাক্যটি $X = (x_1, ..., x_{T_x})$ পড়ে এবং প্রসঙ্গ ভেক্টরের একটি ক্রম $C = (h_1, ..., h_{T_x})$ তৈরি করে। ডিকোডারটি, একটি শর্তাধীন আরএনএন ভাষা মডেল হিসাবে কাজ করে, লক্ষ্য ক্রম তৈরি করে। প্রতিটি ধাপে $t'$, এটি তার পূর্ববর্তী অবস্থা $z_{t'-1}$, পূর্বে উৎপন্ন শব্দ $\tilde{y}_{t'-1}$, এবং একটি গতিশীলভাবে গণনা করা প্রসঙ্গ ভেক্টর $c_{t'}$ এর ভিত্তিতে একটি নতুন গোপন অবস্থা $z_{t'}$ গণনা করে।

অ্যাটেনশন মেকানিজম হল সেই উদ্ভাবন যা মডেলটিকে ডিকোডিংয়ের সময় উৎস বাক্যের বিভিন্ন অংশে ফোকাস করতে দেয়। প্রসঙ্গ ভেক্টর হল এনকোডারের গোপন অবস্থার একটি ওজনযুক্ত যোগফল: $c_{t'} = \sum_{t=1}^{T_x} \alpha_t h_t$। অ্যাটেনশন ওজন $\alpha_t$ একটি ছোট নিউরাল নেটওয়ার্ক (যেমন, একটি একক $\tanh$ স্তর সহ একটি ফিডফরওয়ার্ড নেটওয়ার্ক) দ্বারা গণনা করা হয় যা ডিকোডারের বর্তমান অবস্থা $z_{t'-1}$ এবং পূর্ববর্তী আউটপুট $\tilde{y}_{t'-1}$ দেওয়া প্রতিটি উৎস অবস্থা $h_t$ এর প্রাসঙ্গিকতা স্কোর করে: $\alpha_t \propto \exp(f_{att}(z_{t'-1}, \tilde{y}_{t'-1}, h_t))$।

পরবর্তী লক্ষ্য শব্দের সম্ভাব্যতা বন্টন তখন: $p(y_t = w | \tilde{y}_{

2.2 সাবওয়ার্ড সিম্বল প্রসেসিং

ওপেন ভোকাবুলারি পরিচালনা করতে এবং ডেটা স্পারসিটি প্রশমিত করতে, গবেষণাপত্রটি সেনরিচ এট আল. (২০১৫) এবং অন্যান্যদের থেকে উদ্ধৃত হিসাবে বাইট পেয়ার এনকোডিং (বিপিই) বা ওয়ার্ডপিস মডেলের মতো কৌশলগুলির উপর অন্তর্নিহিতভাবে নির্ভর করে। এই পদ্ধতিগুলি শব্দগুলিকে ছোট, ঘন ঘন সাবওয়ার্ড ইউনিটে বিভক্ত করে, যা মডেলটিকে বিরল এবং অদেখা শব্দগুলিতে আরও ভালভাবে সাধারণীকরণ করতে দেয়, যা আরবির মতো সমৃদ্ধ রূপবিজ্ঞান সহ একটি ভাষার জন্য বিশেষভাবে গুরুত্বপূর্ণ।

3. পরীক্ষামূলক সেটআপ ও আরবি প্রাক-প্রক্রিয়াকরণ

গবেষণাটি একটি আদর্শ পিবিএসএমটি সিস্টেম (মান বৈশিষ্ট্যসহ মোজেস) এবং একটি অ্যাটেনশন-ভিত্তিক এনএমটি সিস্টেমের মধ্যে একটি কঠোর তুলনা পরিচালনা করে। পরীক্ষাগুলিতে একটি গুরুত্বপূর্ণ পরিবর্তনশীল হল আরবি লিপির প্রাক-প্রক্রিয়াকরণ। গবেষণাপত্রটি নিম্নলিখিতগুলির প্রভাব মূল্যায়ন করে:

টোকেনাইজেশন: রূপগত বিভাজন (যেমন, ক্লিটিকস, উপসর্গ, প্রত্যয় আলাদা করা) যেমন হাবাশ এবং সাদাত (২০০৬) প্রস্তাব করেছিলেন।
স্বাভাবিকীকরণ: অর্থোগ্রাফিক স্বাভাবিকীকরণ (যেমন, আলিফ এবং ইয়া ফর্মগুলিকে প্রমিতকরণ, ডায়াক্রিটিকস অপসারণ) যেমন বদর এট আল. (২০০৮) এ।

এই ধাপগুলি, মূলত পিবিএসএমটির জন্য তৈরি, পরীক্ষা করা হয়েছিল যে তাদের সুবিধাগুলি এনএমটি প্যারাডাইমে স্থানান্তরিত হয় কিনা তা দেখতে।

4. ফলাফল ও বিশ্লেষণ

পরীক্ষাগুলি এনএমটি সম্পর্কে পূর্ববর্তী অনুমানগুলিকে চ্যালেঞ্জ করে এবং নিশ্চিত করে এমন বেশ কয়েকটি মূল ফলাফল দেয়।

4.1 ইন-ডোমেইন কর্মক্ষমতা

ইন-ডোমেইন টেস্ট সেটগুলিতে, এনএমটি সিস্টেম এবং পিবিএসএমটি সিস্টেম তুলনীয় কর্মক্ষমতা দেখিয়েছে। এটি একটি উল্লেখযোগ্য ফলাফল ছিল, যা দেখায় যে এমনকি একটি "সরল" এনএমটি মডেলও একটি চ্যালেঞ্জিং ভাষা জুটিতে একটি পরিপক্ক, বৈশিষ্ট্য-প্রকৌশলযুক্ত পিবিএসএমটি সিস্টেমের সাথে সমতা অর্জন করতে পারে।

4.2 আউট-অফ-ডোমেইন রোবাস্টনেস

একটি উল্লেখযোগ্য ফলাফল ছিল আউট-অফ-ডোমেইন টেস্ট ডেটাতে এনএমটির উচ্চতর কর্মক্ষমতা, বিশেষ করে ইংরেজি-থেকে-আরবি অনুবাদের জন্য। এনএমটি সিস্টেমটি ডোমেইন শিফটের প্রতি আরও বেশি রোবাস্টনেস দেখিয়েছে, যা বাস্তব-বিশ্বের স্থাপনার জন্য একটি প্রধান ব্যবহারিক সুবিধা যেখানে ইনপুট টেক্সট ব্যাপকভাবে পরিবর্তিত হতে পারে।

4.3 প্রাক-প্রক্রিয়াকরণের প্রভাব

পরীক্ষাগুলি নিশ্চিত করেছে যে একই আরবি টোকেনাইজেশন এবং স্বাভাবিকীকরণ রুটিন যা পিবিএসএমটিকে উপকৃত করে তা এনএমটির গুণমানেও অনুরূপ উন্নতি ঘটায়। এটি পরামর্শ দেয় যে নির্দিষ্ট ভাষাগত প্রাক-প্রক্রিয়াকরণ জ্ঞান স্থাপত্য-অজ্ঞেয়বাদী এবং আরবি ভাষার নিজস্ব মৌলিক চ্যালেঞ্জগুলিকে সম্বোধন করে।

5. মূল অন্তর্দৃষ্টি ও বিশ্লেষক দৃষ্টিভঙ্গি

মূল অন্তর্দৃষ্টি: এই গবেষণাপত্রটি ব্লিউ স্কোরে একটি যুগান্তকারী আবিষ্কার সম্পর্কে নয়; এটি একটি মৌলিক বৈধতা। এটি প্রমাণ করে যে এনএমটি প্যারাডাইম, যদিও ডেটা-ক্ষুধার্ত, মৌলিকভাবে ভাষা-অজ্ঞেয়বাদী পর্যাপ্ত যা আরবিকে মোকাবেলা করতে পারে—এমন একটি ভাষা যা ইন্দো-ইউরোপীয় প্রসঙ্গ থেকে অনেক দূরে যেখানে এনএমটি প্রমাণিত হয়েছিল। প্রকৃত শিরোনাম হল আউট-অফ-ডোমেইন রোবাস্টনেস, যা এনএমটির সাধারণীকৃত উপস্থাপনা শেখার উচ্চতর ক্ষমতার ইঙ্গিত দেয়, যা ঐতিহ্যগত পিবিএসএমটির পৃষ্ঠ-স্তরের ফ্রেজ ম্যাচিংয়ের উপর নির্ভরতার একটি দুর্বলতা।

যুক্তিসঙ্গত প্রবাহ: লেখকদের পদ্ধতিটি পদ্ধতিগত: ১) আরবিতে একটি আদর্শ এনএমটি স্থাপত্য (অ্যাটেনশন-ভিত্তিক এনকোডার-ডিকোডার) প্রয়োগ করে একটি বেসলাইন স্থাপন করুন, ২) তুলনার জন্য স্বর্ণমান হিসাবে পিবিএসএমটির (মোজেস) প্রতিষ্ঠিত বেঞ্চমার্ক ব্যবহার করুন, ৩) ডোমেইন-নির্দিষ্ট জ্ঞানের (আরবি প্রাক-প্রক্রিয়াকরণ) স্থানান্তরযোগ্যতা পুরানো প্যারাডাইম থেকে নতুনটিতে পদ্ধতিগতভাবে পরীক্ষা করুন। এটি ধারাবাহিকতা এবং ব্যাঘাতের একটি পরিষ্কার, প্রত্যয়িত আখ্যান তৈরি করে।

শক্তি ও ত্রুটি: শক্তি এর স্বচ্ছতা এবং ফোকাসে নিহিত। এটি অতিরিক্ত দাবি করে না; এটি কেবল সমতা প্রদর্শন করে এবং একটি মূল সুবিধা (রোবাস্টনেস) তুলে ধরে। ত্রুটিটি, প্রাথমিক অনুসন্ধানমূলক গবেষণাপত্রগুলির সাধারণ, হল "সরল" মডেল সেটআপ। ২০১৬ সালের মধ্যে, ট্রান্সফরমার স্থাপত্যের মতো আরও উন্নত কৌশলগুলি দিগন্তে ছিল। ভাসওয়ানি এট আল. (২০১৭) এর পরবর্তী কাজ যেমন দেখাবে, ট্রান্সফরমার মডেল, তার স্ব-অ্যাটেনশন মেকানিজম সহ, আরবি সহ অনেক কাজে আরএনএন-ভিত্তিক এনকোডার-ডিকোডারদের চেয়ে নাটকীয়ভাবে উচ্চতর কর্মক্ষমতা প্রদর্শন করে। এই গবেষণাপত্রটি সিলিং নয়, মেঝে নির্ধারণ করে।

কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারীদের জন্য, বার্তাটি পরিষ্কার: আরবির জন্য এনএমটি দিয়ে শুরু করুন। এমনকি মৌলিক মডেলগুলি প্রতিযোগিতামূলক ইন-ডোমেইন কর্মক্ষমতা এবং গুরুত্বপূর্ণ আউট-অফ-ডোমেইন রোবাস্টনেস অফার করে। প্রাক-প্রক্রিয়াকরণের পাঠটি গুরুত্বপূর্ণ: ধরে নেবেন না যে গভীর শিক্ষা ভাষাগত অন্তর্দৃষ্টিকে অপ্রয়োজনীয় করে তোলে। প্রমাণিত টোকেনাইজেশন/স্বাভাবিকীকরণ পাইপলাইনগুলি সংহত করুন। গবেষকদের জন্য, এই গবেষণাপত্রটি দরজা খুলে দেয়। অবিলম্বে পরবর্তী পদক্ষেপগুলি ছিল আরও ডেটা, আরও কম্পিউট (ওপেনএআই থেকে স্কেলিং আইন গবেষণায় দেখা গেছে), এবং আরও উন্নত স্থাপত্য (ট্রান্সফরমার) সমস্যাটিতে নিক্ষেপ করা। এটি যে দীর্ঘমেয়াদী দিকনির্দেশনা বোঝায় তা হল ন্যূনতম তত্ত্বাবধানে বা জিরো-শট অনুবাদের দিকে কম-সম্পদ ভাষার বৈচিত্র্যের জন্য, এনএমটি এখানে প্রদর্শিত সাধারণীকরণ শক্তি ব্যবহার করে।

এই কাজটি কৃত্রিম বুদ্ধিমত্তার একটি বৃহত্তর প্রবণতার সাথে সামঞ্জস্যপূর্ণ যেখানে মৌলিক মডেলগুলি, একবার একটি নতুন ডোমেইনে বৈধতা প্রাপ্ত হলে, দ্রুত পুরানো, আরও বিশেষায়িত কৌশলগুলিকে অপ্রচলিত করে দেয়। ঠিক যেমন সাইকেলজিএএন (ঝু এট আল., ২০১৭) একটি সাধারণ ফ্রেমওয়ার্ক প্রদর্শন করেছিল যা ডোমেইন-নির্দিষ্ট হ্যাকগুলিকে প্রতিস্থাপন করে, এই গবেষণাপত্রটি এনএমটিকে একটি সাধারণ ফ্রেমওয়ার্ক হিসাবে দেখিয়েছে যা ফ্রেজ-ভিত্তিক আরবি এমটির জমে থাকা কৌশলগুলিকে শোষণ করতে এবং ছাড়িয়ে যেতে প্রস্তুত।

6. প্রযুক্তিগত গভীর অনুসন্ধান

6.1 গাণিতিক সূত্রায়ন

অ্যাটেনশন মেকানিজমের মূলকে একটি ডিকোডার সময় ধাপ $t'$ এর জন্য নিম্নলিখিত ধাপে ভেঙে দেওয়া যেতে পারে:

সারিবদ্ধতা স্কোর: একটি সারিবদ্ধতা মডেল $a$ স্কোর করে যে কীভাবে অবস্থান $t$ এর চারপাশের ইনপুটগুলি অবস্থান $t'$ এ আউটপুটের সাথে মেলে:
$e_{t', t} = a(z_{t'-1}, h_t)$
যেখানে $z_{t'-1}$ হল পূর্ববর্তী ডিকোডার গোপন অবস্থা এবং $h_t$ হল $t$-তম এনকোডার গোপন অবস্থা। ফাংশন $a$ সাধারণত একটি ফিডফরওয়ার্ড নেটওয়ার্ক।
অ্যাটেনশন ওজন: স্কোরগুলি একটি সফটম্যাক্স ফাংশন ব্যবহার করে স্বাভাবিক করা হয় অ্যাটেনশন ওজন বন্টন তৈরি করতে:
$\alpha_{t', t} = \frac{\exp(e_{t', t})}{\sum_{k=1}^{T_x} \exp(e_{t', k})}$
প্রসঙ্গ ভেক্টর: ওজনগুলি এনকোডার অবস্থার একটি ওজনযুক্ত যোগফল গণনা করতে ব্যবহৃত হয়, প্রসঙ্গ ভেক্টর $c_{t'}$ তৈরি করে:
$c_{t'} = \sum_{t=1}^{T_x} \alpha_{t', t} h_t$
ডিকোডার আপডেট: প্রসঙ্গ ভেক্টরটি ডিকোডার ইনপুট (পূর্ববর্তী শব্দ এমবেডিং) এর সাথে সংযুক্ত করা হয় এবং ডিকোডার আরএনএন-এ ফিড করা হয় তার অবস্থা আপডেট করতে এবং পরবর্তী শব্দ ভবিষ্যদ্বাণী করতে।

6.2 বিশ্লেষণ ফ্রেমওয়ার্ক উদাহরণ

কেস: প্রাক-প্রক্রিয়াকরণের প্রভাব মূল্যায়ন
উদ্দেশ্য: নির্ধারণ করুন যে রূপগত টোকেনাইজেশন আরবির জন্য এনএমটি উন্নত করে কিনা।
ফ্রেমওয়ার্ক:

অনুমান: আরবি শব্দগুলিকে মর্ফিমে বিভক্ত করা (যেমন, "وكتب" -> "و+كتب") শব্দভাণ্ডারের স্পারসিটি হ্রাস করে এবং রূপগতভাবে জটিল ফর্মগুলির অনুবাদ উন্নত করে।
পরীক্ষামূলক নকশা:
- নিয়ন্ত্রণ ব্যবস্থা: কাঁচা, সাদা-স্থান-টোকেনাইজড টেক্সটে প্রশিক্ষিত এনএমটি মডেল।
- পরীক্ষা ব্যবস্থা: রূপগতভাবে টোকেনাইজড টেক্সটে প্রশিক্ষিত এনএমটি মডেল (ম্যাডামিরা বা অনুরূপ টুল ব্যবহার করে)।
- ধ্রুবক: অভিন্ন মডেল স্থাপত্য, হাইপারপ্যারামিটার, প্রশিক্ষণ ডেটা আকার এবং মূল্যায়ন মেট্রিক্স (যেমন, ব্লিউ, মিটিওর)।
মেট্রিক্স ও বিশ্লেষণ:
- প্রাথমিক: সমষ্টিগত ব্লিউ স্কোর পার্থক্য।
- দ্বিতীয়: লক্ষ্যবস্তু টেস্ট স্যুটের মাধ্যমে নির্দিষ্ট রূপগত ঘটনাবলীর (যেমন, ক্রিয়া সংযোজন, ক্লিটিক সংযুক্তি) কর্মক্ষমতা বিশ্লেষণ করুন।
- ডায়াগনস্টিক: শব্দভাণ্ডারের আকার এবং টোকেন ফ্রিকোয়েন্সি বন্টন তুলনা করুন। একটি সফল টোকেনাইজেশন একটি ছোট, আরও ভারসাম্যপূর্ণ শব্দভাণ্ডারের দিকে নিয়ে যাবে।
ব্যাখ্যা: যদি পরীক্ষা ব্যবস্থাটি পরিসংখ্যানগতভাবে উল্লেখযোগ্য উন্নতি দেখায়, তবে এটি অনুমানটিকে বৈধতা দেয় যে স্পষ্ট রূপগত মডেলিং এনএমটি মডেলকে সাহায্য করে। ফলাফলগুলি একই রকম বা খারাপ হলে, এটি পরামর্শ দেয় যে এনএমটি মডেলের সাবওয়ার্ড ইউনিটগুলি (বিপিই) অন্তর্নিহিতভাবে রূপবিজ্ঞান ক্যাপচার করার জন্য যথেষ্ট।

এই ফ্রেমওয়ার্কটি গবেষণাপত্রের পদ্ধতিকে প্রতিফলিত করে এবং যেকোনো ভাষাগত প্রাক-প্রক্রিয়াকরণ ধাপ পরীক্ষা করতে প্রয়োগ করা যেতে পারে।

7. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা

এই গবেষণাপত্রের ফলাফলগুলি সরাসরি বেশ কয়েকটি গুরুত্বপূর্ণ গবেষণা এবং প্রয়োগের দিকনির্দেশনার পথ প্রশস্ত করেছে:

কম-সম্পদ ও উপভাষাগত আরবি: প্রদর্শিত রোবাস্টনেস পরামর্শ দেয় যে এনএমটি উপভাষাগত আরবি (যেমন, মিশরীয়, লেভান্টাইন) অনুবাদের জন্য আরও কার্যকর হতে পারে যেখানে প্রশিক্ষণ ডেটা স্পারস এবং আধুনিক প্রমিত আরবি থেকে ডোমেইন শিফট উল্লেখযোগ্য। ট্রান্সফার লার্নিং এবং বহুভাষিক এনএমটির মতো কৌশলগুলি, যেমন জনসন এট আল. (২০১৭) দ্বারা অন্বেষণ করা হয়েছে, অত্যন্ত প্রাসঙ্গিক হয়ে ওঠে।
উন্নত স্থাপত্যের সাথে সংহতকরণ: অবিলম্বে পরবর্তী পদক্ষেপ ছিল আরএনএন-ভিত্তিক এনকোডার-ডিকোডারকে ট্রান্সফরমার মডেল দিয়ে প্রতিস্থাপন করা। ট্রান্সফরমারগুলি, তাদের সমান্তরালযোগ্য স্ব-অ্যাটেনশন সহ, আরবির জন্য নির্ভুলতা এবং দক্ষতায় আরও বেশি লাভ দেবে।
একটি শেখা উপাদান হিসাবে প্রাক-প্রক্রিয়াকরণ: নির্দিষ্ট, নিয়ম-ভিত্তিক টোকেনাইজারের পরিবর্তে, ভবিষ্যতের সিস্টেমগুলি শেখার যোগ্য বিভাজন মডিউলগুলি (যেমন, একটি অক্ষর-স্তরের সিএনএন বা অন্য একটি ছোট নেটওয়ার্ক ব্যবহার করে) সংহত করতে পারে যা অনুবাদ মডেলের সাথে যৌথভাবে অপ্টিমাইজ করা হয়, সম্ভাব্যভাবে অনুবাদ কাজের জন্য সর্বোত্তম বিভাজন আবিষ্কার করে।
বাস্তব-বিশ্বের স্থাপনা: আউট-অফ-ডোমেইন রোবাস্টনেস হল বাণিজ্যিক এমটি প্রদানকারীদের জন্য একটি মূল বিক্রয় পয়েন্ট যারা বিভিন্ন গ্রাহক বিষয়বস্তু (সোশ্যাল মিডিয়া, সংবাদ, প্রযুক্তিগত নথি) পরিবেশন করে। এই গবেষণাপত্রটি উৎপাদন পরিবেশে আরবির জন্য এনএমটি পাইপলাইনগুলিকে অগ্রাধিকার দেওয়ার জন্য অভিজ্ঞতামূলক ন্যায্যতা প্রদান করে।
অনুবাদের বাইরে: আরবি এমটির জন্য অ্যাটেনশন-ভিত্তিক মডেলগুলির সাফল্য টেক্সট সারসংক্ষেপ, প্রশ্নোত্তর এবং অনুভূতি বিশ্লেষণের মতো অন্যান্য আরবি এনএলপি কাজের জন্য পদ্ধতিটিকে বৈধতা দেয়, যেখানে সিকোয়েন্স-টু-সিকোয়েন্স মডেলিংও প্রযোজ্য।

8. তথ্যসূত্র

Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural machine translation by jointly learning to align and translate. International Conference on Learning Representations (ICLR).
Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Habash, N., & Sadat, F. (2006). Arabic preprocessing schemes for statistical machine translation. Proceedings of the Human Language Technology Conference of the NAACL.
Johnson, M., Schuster, M., Le, Q. V., et al. (2017). Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation. Transactions of the Association for Computational Linguistics.
Sennrich, R., Haddow, B., & Birch, A. (2015). Neural machine translation of rare words with subword units. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL).
Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is all you need. Advances in Neural Information Processing Systems (NeurIPS).
Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).