1. ভূমিকা

এন্ড-টু-এন্ড নিউরাল নেটওয়ার্ক ব্যবহার করে, প্রাথমিকভাবে এনকোডার-ডিকোডার কাঠামো প্রয়োগ করে, নিউরাল মেশিন ট্রান্সলেশন (এনএমটি) মেশিন অনুবাদের ক্ষেত্রে বিপ্লব ঘটিয়েছে। তবে, প্রচলিত এনএমটি মডেলগুলি প্রায়শই উৎস এবং লক্ষ্য বাক্যের মধ্যে শব্দার্থিক সারিবদ্ধতা অন্তর্নিহিতভাবে ক্যাপচার করার জন্য অ্যাটেনশন মেকানিজমের উপর নির্ভর করে, যা অ্যাটেনশন ব্যর্থ হলে অনুবাদ ত্রুটির দিকে নিয়ে যেতে পারে। এই গবেষণাপত্রটি ভ্যারিয়েশনাল নিউরাল মেশিন ট্রান্সলেশন (ভিএনএমটি) উপস্থাপন করে, একটি অভিনব পদ্ধতি যা দ্বিভাষিক বাক্য জোড়ার অন্তর্নিহিত শব্দার্থবিদ্যা স্পষ্টভাবে মডেল করতে অবিচ্ছিন্ন লুকানো চলক অন্তর্ভুক্ত করে, ভ্যানিলা এনকোডার-ডিকোডার মডেলগুলির সীমাবদ্ধতা মোকাবেলা করে।

2. ভ্যারিয়েশনাল নিউরাল মেশিন ট্রান্সলেশন মডেল

ভিএনএমটি মডেলটি একটি অবিচ্ছিন্ন লুকানো চলক z প্রবর্তন করে স্ট্যান্ডার্ড এনএমটি কাঠামোকে প্রসারিত করে যা একটি বাক্য জোড়ার অন্তর্নিহিত শব্দার্থিক বিষয়বস্তুকে উপস্থাপন করে। এটি মডেলটিকে অ্যাটেনশন-ভিত্তিক প্রসঙ্গ ভেক্টর দ্বারা প্রদত্ত তথ্যের বাইরে গ্লোবাল শব্দার্থিক তথ্য ক্যাপচার করতে দেয়।

2.1 সম্ভাব্যতা-ভিত্তিক কাঠামো

মূল ধারণাটি হল লুকানো চলক $z$ এর উপর সমষ্টিকরণ করে শর্তাধীন সম্ভাবনা $p(y|x)$ মডেল করা:

$p(y|x) = \int p(y|z,x)p(z|x)dz$

এই সূত্রায়ন মডেলটিকে উৎস বাক্য x এবং লুকানো শব্দার্থিক উপস্থাপনা z উভয়ের ভিত্তিতে অনুবাদ তৈরি করতে সক্ষম করে।

2.2 মডেল আর্কিটেকচার

ভিএনএমটি দুটি প্রধান উপাদান নিয়ে গঠিত: একটি জেনারেটিভ মডেল $p_\theta(z|x)p_\theta(y|z,x)$ এবং একটি ভ্যারিয়েশনাল অ্যাপ্রক্সিমেশন $q_\phi(z|x,y)$ যা গণনা করা কঠিন প্রকৃত পোস্টেরিয়র $p(z|x,y)$ এর কাছে। আর্কিটেকচারটি স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট ব্যবহার করে এন্ড-টু-এন্ড প্রশিক্ষণের জন্য ডিজাইন করা হয়েছে।

2.3 প্রশিক্ষণ উদ্দেশ্য

মডেলটিকে এভিডেন্স লোয়ার বাউন্ড (ইএলবিও) সর্বাধিকীকরণ করে প্রশিক্ষণ দেওয়া হয়:

$\mathcal{L}(\theta, \phi; x, y) = \mathbb{E}_{q_\phi(z|x,y)}[\log p_\theta(y|z,x)] - D_{KL}(q_\phi(z|x,y) \| p_\theta(z|x))$

এই উদ্দেশ্য মডেলটিকে লক্ষ্য বাক্যটি সঠিকভাবে পুনর্গঠন করতে উত্সাহিত করার পাশাপাশি কেএল ডাইভারজেন্স টার্মের মাধ্যমে লুকানো স্থানকে নিয়মিত করে।

3. প্রযুক্তিগত বাস্তবায়ন

দক্ষ প্রশিক্ষণ এবং ইনফারেন্স সক্ষম করতে, লেখকরা ভ্যারিয়েশনাল ইনফারেন্স সাহিত্য থেকে বেশ কয়েকটি মূল কৌশল বাস্তবায়ন করেছেন।

3.1 নিউরাল পোস্টেরিয়র অ্যাপ্রক্সিমেটর

উৎস এবং লক্ষ্য উভয় বাক্যের উপর শর্তযুক্ত একটি নিউরাল নেটওয়ার্ক পোস্টেরিয়র ডিস্ট্রিবিউশন $q_\phi(z|x,y)$ আনুমানিক করতে ব্যবহৃত হয়। এই নেটওয়ার্কটি একটি গাউসিয়ান ডিস্ট্রিবিউশনের প্যারামিটার (গড় এবং ভ্যারিয়েন্স) আউটপুট করে যেখান থেকে লুকানো নমুনা আঁকা হয়।

3.2 রিপ্যারামিটারাইজেশন ট্রিক

স্যাম্পলিং প্রক্রিয়ার মাধ্যমে গ্রেডিয়েন্ট-ভিত্তিক অপ্টিমাইজেশন সক্ষম করতে, রিপ্যারামিটারাইজেশন ট্রিক প্রয়োগ করা হয়: $z = \mu + \sigma \odot \epsilon$, যেখানে $\epsilon \sim \mathcal{N}(0, I)$। এটি গ্রেডিয়েন্টগুলিকে স্যাম্পলিং অপারেশনের মধ্য দিয়ে প্রবাহিত হতে দেয়।

4. পরীক্ষা এবং ফলাফল

প্রস্তাবিত ভিএনএমটি মডেলটির কার্যকারিতা যাচাই করার জন্য স্ট্যান্ডার্ড মেশিন ট্রান্সলেশন বেঞ্চমার্কগুলিতে মূল্যায়ন করা হয়েছিল।

4.1 পরীক্ষামূলক সেটআপ

চাইনিজ-ইংলিশ এবং ইংলিশ-জার্মান অনুবাদ টাস্কে স্ট্যান্ডার্ড ডেটাসেট (ডব্লিউএমটি) ব্যবহার করে পরীক্ষা পরিচালিত হয়েছিল। বেসলাইন মডেলগুলিতে অ্যাটেনশন-ভিত্তিক এনএমটি সিস্টেম অন্তর্ভুক্ত ছিল। মূল্যায়ন মেট্রিক্সে বিএলইইউ স্কোর এবং মানব মূল্যায়ন অন্তর্ভুক্ত ছিল।

4.2 প্রধান ফলাফল

ভিএনএমটি উভয় অনুবাদ টাস্কে ভ্যানিলা এনএমটি বেসলাইনের তুলনায় উল্লেখযোগ্য উন্নতি অর্জন করেছে। দীর্ঘ বাক্য এবং জটিল বাক্য গঠন বিশিষ্ট বাক্যগুলির জন্য উন্নতিগুলি বিশেষভাবে লক্ষণীয় ছিল, যেখানে অ্যাটেনশন মেকানিজমগুলি প্রায়শই সংগ্রাম করে।

কর্মক্ষমতা উন্নতি

চাইনিজ-ইংলিশ: বেসলাইনের তুলনায় +২.১ বিএলইইউ পয়েন্ট

ইংলিশ-জার্মান: বেসলাইনের তুলনায় +১.৮ বিএলইইউ পয়েন্ট

4.3 বিশ্লেষণ এবং অ্যাবলেশন স্টাডিজ

অ্যাবলেশন স্টাডিজ নিশ্চিত করেছে যে ইএলবিও উদ্দেশ্যের উভয় উপাদান (পুনর্গঠন ক্ষতি এবং কেএল ডাইভারজেন্স) সর্বোত্তম কর্মক্ষমতার জন্য প্রয়োজনীয়। লুকানো স্থানের বিশ্লেষণে দেখা গেছে যে শব্দার্থিকভাবে অনুরূপ বাক্যগুলি একত্রে গুচ্ছবদ্ধ হয়, যা নির্দেশ করে যে মডেলটি অর্থপূর্ণ উপস্থাপনা শেখে।

5. মূল অন্তর্দৃষ্টি

  • স্পষ্ট শব্দার্থিক মডেলিং: ভিএনএমটি স্পষ্ট লুকানো চলক প্রবর্তন করে স্ট্যান্ডার্ড এনএমটিতে অন্তর্নিহিত শব্দার্থিক উপস্থাপনার বাইরে চলে যায়।
  • অ্যাটেনশন ত্রুটির প্রতি রোবাস্টনেস: লুকানো চলক দ্বারা প্রদত্ত গ্লোবাল শব্দার্থিক সিগন্যাল স্থানীয় অ্যাটেনশন মেকানিজমগুলিকে পরিপূরক করে, অনুবাদগুলিকে আরও রোবাস্ট করে তোলে।
  • এন্ড-টু-এন্ড ডিফারেনশিয়েবল: লুকানো চলক প্রবর্তন সত্ত্বেও, সম্পূর্ণ মডেলটি ডিফারেনশিয়েবল থাকে এবং স্ট্যান্ডার্ড ব্যাকপ্রপাগেশন দিয়ে প্রশিক্ষণ দেওয়া যেতে পারে।
  • স্কেলযোগ্য ইনফারেন্স: ভ্যারিয়েশনাল অ্যাপ্রক্সিমেশন বৃহৎ-স্কেল ডেটাসেট সহেও দক্ষ পোস্টেরিয়র ইনফারেন্স সক্ষম করে।

6. মূল বিশ্লেষণ: ভিএনএমটি প্যারাডাইম শিফট

মূল অন্তর্দৃষ্টি: গবেষণাপত্রের মৌলিক অগ্রগতি শুধুমাত্র অ্যাটেনশন মেকানিজমের আরেকটি ক্রমবর্ধমান টুইক নয়; এটি বৈষম্যমূলক সারিবদ্ধতা থেকে জেনারেটিভ শব্দার্থিক মডেলিং এর দার্শনিক পরিবর্তন। ভ্যাসওয়ানি এট আল. (২০১৭) এর ট্রান্সফরমারের মতো মডেলগুলি টোকেনগুলির মধ্যে পারস্পরিক সম্পর্ক শেখার শিল্পকে পরিপূর্ণ করলেও, ভিএনএমটি একটি গভীর প্রশ্ন জিজ্ঞাসা করে: উৎস এবং লক্ষ্য উভয় বাক্য যে ভাগ করা, বিচ্ছিন্ন অর্থ প্রকাশ করে তা কী? এটি সত্যিকারের ভাষা বোঝার মডেলিংয়ের কাছাকাছি নিয়ে যায়, শুধুমাত্র প্যাটার্ন ম্যাচিং নয়।

লজিক্যাল ফ্লো: লেখকরা স্ট্যান্ডার্ড এনকোডার-ডিকোডারগুলির আচিলিস হিল সঠিকভাবে চিহ্নিত করেছেন: অ্যাটেনশন-উদ্ভূত প্রসঙ্গ ভেক্টরের উপর তাদের সম্পূর্ণ নির্ভরতা, যা স্বভাবতই স্থানীয় এবং কোলাহলপূর্ণ। তাদের সমাধানটি মার্জিত—একটি অবিচ্ছিন্ন লুকানো চলক z প্রবর্তন করা একটি বোতলনেক হিসাবে যা বাক্যের মূল শব্দার্থবিদ্যা ক্যাপচার করতে হবে। সম্ভাব্যতা সূত্রায়ন $p(y|x) = \int p(y|z,x)p(z|x)dz$ মডেলটিকে একটি সংকুচিত, অর্থপূর্ণ উপস্থাপনা শিখতে বাধ্য করে। একটি ভ্যারিয়েশনাল অ্যাপ্রক্সিমেশন এবং রিপ্যারামিটারাইজেশন ট্রিকের ব্যবহার কিংমা অ্যান্ড ওয়েলিংয়ের ভিএই ফ্রেমওয়ার্ক থেকে কৌশলগুলির একটি সরাসরি, ব্যবহারিক প্রয়োগ, যা জেনারেটিভ মডেল এবং এনএলপির মধ্যে শক্তিশালী ক্রস-পলিনেশন প্রদর্শন করে।

শক্তি ও ত্রুটি: শক্তি অপরিবর্তনীয়: স্পষ্ট শব্দার্থবিদ্যা আরও রোবাস্ট এবং সুসংগত অনুবাদের দিকে নিয়ে যায়, বিশেষ করে জটিল, অস্পষ্ট বা দীর্ঘ-পরিসরের নির্ভরতার জন্য যেখানে অ্যাটেনশন ব্যর্থ হয়। রিপোর্ট করা বিএলইইউ লাভগুলি দৃঢ়। যাইহোক, ত্রুটিটি গণনীয় এবং ধারণাগত ওভারহেডে রয়েছে। একটি স্টোকাস্টিক লুকানো স্তর প্রবর্তন করা জটিলতা, প্রশিক্ষণের অস্থিরতা (ভিএই-তে ক্লাসিক কেএল ভ্যানিশিং/এক্সপ্লোডিং সমস্যা) যোগ করে এবং ইনফারেন্সকে কম নির্ধারক করে তোলে। কম-লেটেন্সি ডেপ্লয়মেন্টে মনোনিবেশ করা একটি শিল্পের জন্য, এটি একটি উল্লেখযোগ্য ট্রেড-অফ। তদুপরি, গবেষণাপত্রটি, তার যুগের অনেকগুলির মতো, লুকানো স্থানের ব্যাখ্যাযোগ্যতা সম্পূর্ণরূপে অন্বেষণ করে না—z ঠিক কী এনকোড করছে?

কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারীদের জন্য, এই কাজটি খাঁটি অ্যাটেনশনের বাইরে তাকানোর জন্য একটি আদেশ। উচ্চ-কর্মক্ষমতা এনএমটি এবং বহুভাষিক মডেলগুলির ভবিষ্যত সম্ভবত হাইব্রিড আর্কিটেকচারে নিহিত রয়েছে। mBART (লিউ এট আল., ২০২০) এর মতো মডেলগুলির সাফল্য, যা প্রিট্রেনিংয়ের জন্য ডিনোইজিং অটোএনকোডার উদ্দেশ্য ব্যবহার করে, ক্রস-লিঙ্গুয়াল উপস্থাপনা শেখার জন্য জেনারেটিভ, বোতলনেকড উদ্দেশ্যের শক্তি যাচাই করে। পরবর্তী ধাপ হল ভিএনএমটির স্পষ্ট লুকানো চলকগুলিকে ট্রান্সফরমারের স্কেল এবং দক্ষতার সাথে একীভূত করা। গবেষকদের উচিত এনএলপিতে লুকানো-চলক মডেলগুলির জন্য আরও স্থিতিশীল প্রশিক্ষণ কৌশল এবং শব্দার্থিক লুকানো স্থানটি কল্পনা করা এবং নিয়ন্ত্রণ করার পদ্ধতিগুলিতে ফোকাস করা, এটিকে একটি ব্ল্যাক বক্স থেকে নিয়ন্ত্রিত জেনারেশনের একটি টুলে পরিণত করা।

7. প্রযুক্তিগত বিবরণ

ভিএনএমটির গাণিতিক ভিত্তি ভ্যারিয়েশনাল ইনফারেন্সের উপর ভিত্তি করে। মূল সমীকরণগুলি হল:

জেনারেটিভ মডেল: $p_\theta(y, z|x) = p_\theta(z|x)p_\theta(y|z,x)$

ভ্যারিয়েশনাল অ্যাপ্রক্সিমেশন: $q_\phi(z|x, y)$

এভিডেন্স লোয়ার বাউন্ড (ইএলবিও):

$\log p(y|x) \geq \mathbb{E}_{q_\phi(z|x,y)}[\log p_\theta(y|z,x)] - D_{KL}(q_\phi(z|x,y) \| p_\theta(z|x))$

প্রথম টার্মটি হল পুনর্গঠন ক্ষতি, যা সঠিক অনুবাদ জেনারেশনকে উত্সাহিত করে। দ্বিতীয় টার্মটি হল কেএল ডাইভারজেন্স, যা লুকানো স্থানকে প্রায়র $p_\theta(z|x)$ এর কাছাকাছি হতে নিয়মিত করে।

8. পরীক্ষামূলক ফলাফলের সারসংক্ষেপ

পরীক্ষামূলক ফলাফলগুলি স্ট্যান্ডার্ড এনএমটি বেসলাইনের তুলনায় ভিএনএমটির স্পষ্ট সুবিধা প্রদর্শন করে:

  • পরিমাণগত উন্নতি: একাধিক ভাষা জোড়া এবং ডেটাসেট আকার জুড়ে ধারাবাহিক বিএলইইউ স্কোর উন্নতি।
  • গুণগত বিশ্লেষণ: মানব মূল্যায়নে দেখা গেছে যে ভিএনএমটি আরও সাবলীল এবং শব্দার্থিকভাবে সঠিক অনুবাদ তৈরি করে, বিশেষ করে বাগধারা বা জটিল ব্যাকরণ বিশিষ্ট বাক্যগুলির জন্য।
  • রোবাস্টনেস: ভিএনএমটি অ্যাটেনশন-ভিত্তিক মডেলগুলির তুলনায় কোলাহলপূর্ণ বা আউট-অফ-ডোমেন ডেটাতে কম কর্মক্ষমতা অবনতি দেখিয়েছে।

চার্ট ব্যাখ্যা: যদিও গবেষণাপত্রে জটিল চার্ট অন্তর্ভুক্ত নেই, ফলাফলের টেবিলগুলি নির্দেশ করে যে ভিএনএমটি এবং বেসলাইনের মধ্যে কর্মক্ষমতা ব্যবধান বাক্যের দৈর্ঘ্যের সাথে প্রসারিত হয়। এটি দৃশ্যত মডেলের সেই শক্তিকে জোর দেয় যা স্থানীয় অ্যাটেনশন মেকানিজমগুলি দীর্ঘ ক্রমের উপর মিস করে সেই গ্লোবাল শব্দার্থবিদ্যা ক্যাপচার করে।

9. বিশ্লেষণ কাঠামো: কেস স্টাডি

দৃশ্যকল্প: অস্পষ্ট ইংরেজি বাক্য "He saw her duck" জার্মান ভাষায় অনুবাদ করা। একটি স্ট্যান্ডার্ড অ্যাটেনশন-ভিত্তিক এনএমটি ভুলভাবে "duck" কে প্রাথমিকভাবে প্রাণীর (Ente) সাথে যুক্ত করতে পারে, যার ফলে একটি অর্থহীন অনুবাদ হয়।

ভিএনএমটি বিশ্লেষণ:

  1. লুকানো স্থান এনকোডিং: নিউরাল পোস্টেরিয়র অ্যাপ্রক্সিমেটর $q_\phi(z|x, y)$ উৎস এবং (প্রশিক্ষণের সময়) একটি সঠিক লক্ষ্য প্রক্রিয়া করে। এটি মূল শব্দার্থিক দৃশ্য এনকোড করে: [এজেন্ট: তিনি, অ্যাকশন: দেখুন, রোগী: তার, অবজেক্ট/অ্যাকশন: হাঁস (অস্পষ্ট)]।
  2. প্রসঙ্গের মাধ্যমে দ্ব্যর্থতা নিরসন: লুকানো চলক z গ্লোবাল প্রিডিকেট-আর্গুমেন্ট কাঠামো ক্যাপচার করে। ডিকোডার $p_\theta(y|z,x)$, এই কাঠামোগত শব্দার্থিক উপস্থাপনা এবং উৎস শব্দগুলির উপর শর্তযুক্ত, সঠিক অর্থ বেছে নেওয়ার জন্য একটি শক্তিশালী সিগন্যাল রয়েছে। এটি এই সত্যটি কাজে লাগাতে পারে যে "saw her" দৃঢ়ভাবে একটি অনুসরণকারী ক্রিয়াপদকে নির্দেশ করে, অনুবাদটিকে বিশেষ্য "Ente" এর পরিবর্তে ক্রিয়াপদ "ducken" (নিচে বাঁকানোর) দিকে পক্ষপাত দেয়।
  3. আউটপুট: মডেলটি সফলভাবে "Er sah sie ducken" তৈরি করে, দ্ব্যর্থতা সঠিকভাবে সমাধান করে।
এই কেসটি চিত্রিত করে যে কীভাবে লুকানো চলকটি একটি তথ্য বোতলনেক হিসাবে কাজ করে যা মডেলটিকে বাক্য-স্তরের অর্থ পাতিত করতে এবং যুক্তি করতে বাধ্য করে, শব্দ-থেকে-শব্দ সারিবদ্ধতার বাইরে যায়।

10. ভবিষ্যতের প্রয়োগ এবং দিকনির্দেশ

ভিএনএমটি কাঠামো বেশ কয়েকটি প্রতিশ্রুতিশীল গবেষণা এবং প্রয়োগের পথ খুলে দেয়:

  • বহুভাষিক এবং জিরো-শট ট্রান্সলেশন: একাধিক ভাষা জুড়ে একটি ভাগ করা লুকানো শব্দার্থিক স্থান কোন সমান্তরাল ডেটা ছাড়াই ভাষা জোড়ার মধ্যে সরাসরি অনুবাদ সহজতর করতে পারে, একটি দিক যা এমবেডিং স্পেসে MUSE (কননিউ এট আল., ২০১৭) এর মতো পরবর্তী মডেলগুলির দ্বারা সফলভাবে অন্বেষণ করা হয়েছে।
  • নিয়ন্ত্রিত টেক্সট জেনারেশন: বিচ্ছিন্ন লুকানো স্থানটি অনুবাদ এবং একভাষিক জেনারেশন টাস্কে জেনারেটেড টেক্সটের বৈশিষ্ট্য (আনুষ্ঠানিকতা, অনুভূতি, শৈলী) নিয়ন্ত্রণ করতে ব্যবহার করা যেতে পারে।
  • লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম) এর সাথে একীকরণ: ভবিষ্যতের কাজ ডিকোডার-শুধুমাত্র এলএলএমগুলিতে অনুরূপ লুকানো চলক মডিউলগুলি ইনজেক্ট করে তাদের জেনারেশনে সত্যিকারের ধারাবাহিকতা এবং নিয়ন্ত্রণযোগ্যতা উন্নত করতে অন্বেষণ করতে পারে, পরিচিত "হ্যালুসিনেশন" সমস্যাগুলি মোকাবেলা করে।
  • লো-রিসোর্স অ্যাডাপ্টেশন: ভিএনএমটি দ্বারা শেখা শব্দার্থিক উপস্থাপনাগুলি স্ট্যান্ডার্ড এনএমটি দ্বারা শেখা পৃষ্ঠ-স্তরের প্যাটার্নগুলির তুলনায় কম-সম্পদ ভাষাগুলিতে আরও ভাল স্থানান্তর করতে পারে।
  • অনুবাদের জন্য ব্যাখ্যাযোগ্য এআই: লুকানো চলকগুলির বিশ্লেষণ কীভাবে মডেলটি অনুবাদ সিদ্ধান্ত নেয় সে সম্পর্কে অন্তর্দৃষ্টি প্রদান করতে পারে, আরও ব্যাখ্যাযোগ্য এনএমটি সিস্টেমের দিকে অগ্রসর হতে পারে।

11. তথ্যসূত্র

  1. Zhang, B., Xiong, D., Su, J., Duan, H., & Zhang, M. (2016). Variational Neural Machine Translation. arXiv preprint arXiv:1605.07869.
  2. Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes. International Conference on Learning Representations (ICLR).
  3. Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. International Conference on Learning Representations (ICLR).
  4. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems (NeurIPS).
  5. Liu, Y., Gu, J., Goyal, N., Li, X., Edunov, S., Ghazvininejad, M., ... & Zettlemoyer, L. (2020). Multilingual Denoising Pre-training for Neural Machine Translation. Transactions of the Association for Computational Linguistics.
  6. Conneau, A., Lample, G., Ranzato, M., Denoyer, L., & Jégou, H. (2017). Word Translation Without Parallel Data. International Conference on Learning Representations (ICLR).