1. ভূমিকা
পুনরুদ্ধার-সমৃদ্ধ নিউরাল মেশিন ট্রান্সলেশন (এনএমটি) অনুবাদ প্রক্রিয়ায় একটি ডাটাবেস থেকে অনুরূপ অনুবাদ উদাহরণ (ট্রান্সলেশন মেমোরি, টিএম) অন্তর্ভুক্ত করে স্ট্যান্ডার্ড এনএমটি মডেলগুলিকে উন্নত করে। কার্যকর হলেও, ঐতিহ্যগত পদ্ধতিগুলি প্রায়শই অতিরিক্ত এবং পরস্পর অনুরূপ টিএম পুনরুদ্ধার করে, যা তথ্য লাভকে সীমিত করে। এই গবেষণাপত্রটি একটি অভিনব কাঠামো, কনট্রাস্টিভ মেমোরি মডেল উপস্থাপন করে, যা কনট্রাস্টিভ টিএম—যেগুলো উৎস বাক্যের সাথে সামগ্রিকভাবে অনুরূপ কিন্তু স্বতন্ত্রভাবে বৈচিত্র্যময় এবং অ-অতিরিক্ত—পুনরুদ্ধার ও ব্যবহারের উপর ফোকাস করে এই সীমাবদ্ধতা সমাধান করে।
মূল অনুমান হল যে বৈচিত্র্যময় টিএমের একটি সেট উৎস বাক্যের বিভিন্ন দিক থেকে সর্বাধিক কভারেজ এবং দরকারী সূত্র প্রদান করে, যা উন্নত অনুবাদ মানের দিকে নিয়ে যায়। প্রস্তাবিত মডেলটি তিনটি মূল পর্যায়ে কাজ করে: (১) একটি কনট্রাস্টিভ পুনরুদ্ধার অ্যালগরিদম, (২) একটি শ্রেণীবদ্ধ মেমোরি এনকোডিং মডিউল, এবং (৩) একটি মাল্টি-টিএম কনট্রাস্টিভ লার্নিং উদ্দেশ্য।
2. পদ্ধতি
প্রস্তাবিত কাঠামোটি পদ্ধতিগতভাবে কনট্রাস্টিভ নীতিকে পুনরুদ্ধার-সমৃদ্ধ এনএমটি পাইপলাইনে সংহত করে।
2.1 কনট্রাস্টিভ পুনরুদ্ধার অ্যালগরিদম
শুধুমাত্র উৎস সাদৃশ্যের উপর ভিত্তি করে লোভী পুনরুদ্ধারের পরিবর্তে, লেখকরা ম্যাক্সিমাল মার্জিনাল রিলেভেন্স (এমএমআর) দ্বারা অনুপ্রাণিত একটি পদ্ধতি প্রস্তাব করেন। একটি উৎস বাক্য $s$ দেওয়া হলে, লক্ষ্য হল $K$ টিএম-এর একটি সেট $\mathcal{M} = \{m_1, m_2, ..., m_K\}$ পুনরুদ্ধার করা যা $s$ এর সাথে প্রাসঙ্গিকতা এবং সেটের মধ্যে বৈচিত্র্য উভয়ই সর্বাধিক করে। ইতিমধ্যে নির্বাচিত সেট $S$ দেওয়া হলে, একটি প্রার্থী টিএম $m_i$ এর জন্য পুনরুদ্ধার স্কোর সংজ্ঞায়িত করা হয়:
$\text{Score}(m_i) = \lambda \cdot \text{Sim}(s, m_i) - (1-\lambda) \cdot \max_{m_j \in S} \text{Sim}(m_i, m_j)$
যেখানে $\text{Sim}(\cdot)$ একটি সাদৃশ্য ফাংশন (যেমন, সম্পাদনা দূরত্ব বা শব্দার্থিক সাদৃশ্য), এবং $\lambda$ প্রাসঙ্গিকতা ও বৈচিত্র্যের মধ্যে ভারসাম্য বজায় রাখে। এটি নিশ্চিত করে যে নির্বাচিত টিএমগুলি তথ্যপূর্ণ এবং অ-অতিরিক্ত।
2.2 শ্রেণীবদ্ধ গ্রুপ অ্যাটেনশন
পুনরুদ্ধারকৃত টিএম সেটকে কার্যকরভাবে এনকোড করার জন্য, একটি অভিনব শ্রেণীবদ্ধ গ্রুপ অ্যাটেনশন (এইচজিএ) মডিউল চালু করা হয়েছে। এটি দুটি স্তরে কাজ করে:
- স্থানীয় অ্যাটেনশন: প্রতিটি স্বতন্ত্র টিএম-এর মধ্যে প্রাসঙ্গিক তথ্য এনকোড করে।
- গ্লোবাল অ্যাটেনশন: সমষ্টিগত, সামগ্রিক প্রসঙ্গ ধারণ করার জন্য সেটের সমস্ত টিএম জুড়ে তথ্য সংগ্রহ করে।
এই দ্বি-স্তরীয় এনকোডিং মডেলটিকে নির্দিষ্ট টিএম থেকে সূক্ষ্ম বিবরণ এবং পুরো টিএম সেট থেকে সার্বিক বিষয়ভিত্তিক বা কাঠামোগত প্যাটার্ন উভয়ই কাজে লাগাতে দেয়।
2.3 মাল্টি-টিএম কনট্রাস্টিভ লার্নিং
প্রশিক্ষণের সময়, একটি মাল্টি-টিএম কনট্রাস্টিভ লার্নিং উদ্দেশ্য ব্যবহৃত হয়। এটি লক্ষ্য অনুবাদের সাথে সম্পর্কিত প্রতিটি টিএম-এর সবচেয়ে বিশিষ্ট বৈশিষ্ট্যগুলি আলাদা করতে মডেলটিকে উৎসাহিত করে। লস ফাংশনটি গ্রাউন্ড-ট্রুথ টার্গেটের উপস্থাপনাকে প্রাসঙ্গিক টিএম-এর সমষ্টিগত উপস্থাপনার কাছাকাছি টানে যখন একে অপ্রাসঙ্গিক বা কম তথ্যপূর্ণ টিএম থেকে দূরে সরিয়ে দেয়, যার ফলে দরকারী তথ্য নির্বাচন ও সমন্বয় করার মডেলের ক্ষমতা বৃদ্ধি পায়।
3. পরীক্ষামূলক ফলাফল
3.1 ডেটাসেট ও বেসলাইন
পরীক্ষাগুলি এনএমটির জন্য স্ট্যান্ডার্ড বেঞ্চমার্ক ডেটাসেটে পরিচালিত হয়েছিল, যার মধ্যে ডব্লিউএমটি১৪ ইংরেজি-জার্মান এবং ইংরেজি-ফরাসি অন্তর্ভুক্ত ছিল। শক্তিশালী বেসলাইনের সাথে তুলনা করা হয়েছিল, যার মধ্যে স্ট্যান্ডার্ড ট্রান্সফরমার-ভিত্তিক এনএমটি এবং গু এট আল. (২০১৮) দ্বারা প্রস্তাবিত মতো অত্যাধুনিক পুনরুদ্ধার-সমৃদ্ধ মডেল অন্তর্ভুক্ত ছিল।
3.2 প্রধান ফলাফল ও বিশ্লেষণ
প্রস্তাবিত কনট্রাস্টিভ মেমোরি মডেলটি ব্লিউ স্কোরের ক্ষেত্রে সমস্ত বেসলাইনের উপর ধারাবাহিক উন্নতি অর্জন করেছে। উদাহরণস্বরূপ, ডব্লিউএমটি১৪ ইংরেজি-জার্মানে, এটি শক্তিশালী পুনরুদ্ধার-সমৃদ্ধ বেসলাইনকে +১.২ ব্লিউ পয়েন্টে ছাড়িয়ে গেছে। ফলাফলগুলি এই অনুমানকে বৈধতা দেয় যে বৈচিত্র্যময়, কনট্রাস্টিভ টিএম অতিরিক্তগুলির চেয়ে বেশি উপকারী।
মূল কার্যক্ষমতা উন্নতি
ডব্লিউএমটি১৪ ইংরেজি-জার্মানে অত্যাধুনিক পুনরুদ্ধার-সমৃদ্ধ বেসলাইনের উপর +১.২ ব্লিউ।
3.3 অপসারণ গবেষণা
অপসারণ গবেষণাগুলি প্রতিটি উপাদানের অবদান নিশ্চিত করেছে:
- কনট্রাস্টিভ পুনরুদ্ধার অপসারণ (লোভী পুনরুদ্ধার ব্যবহার করে) কার্যক্ষমতায় উল্লেখযোগ্য পতনের দিকে নিয়ে গেছে।
- শ্রেণীবদ্ধ গ্রুপ অ্যাটেনশনকে টিএম এম্বেডিংয়ের একটি সাধারণ সংযোজন বা গড় দ্বারা প্রতিস্থাপন করলেও ফলাফল খারাপ হয়েছে।
- কার্যকর টিএম উপস্থাপনা শেখার জন্য মাল্টি-টিএম কনট্রাস্টিভ লস অত্যন্ত গুরুত্বপূর্ণ ছিল।
পিডিএফ-এর চিত্র ১-এ লোভী পুনরুদ্ধার এবং কনট্রাস্টিভ পুনরুদ্ধারের মধ্যে পার্থক্য দৃশ্যত প্রদর্শিত হয়েছে, দেখানো হয়েছে কীভাবে পরবর্তীটি প্রায় অভিন্নগুলির পরিবর্তে বিভিন্ন শব্দার্থিক ফোকাস সহ টিএম নির্বাচন করে (যেমন, "স্ন্যাক", "কার", "মুভি" বনাম "স্পোর্ট")।
4. বিশ্লেষণ ও আলোচনা
শিল্প বিশ্লেষকের দৃষ্টিকোণ: একটি চার-ধাপ বিশ্লেষণ
4.1 মূল অন্তর্দৃষ্টি
গবেষণাপত্রের মৌলিক অগ্রগতি শুধু আরেকটি অ্যাটেনশন বৈকল্পিক নয়; এটি পুনরুদ্ধার-সমৃদ্ধ মডেলগুলিতে তথ্যের পরিমাণ থেকে তথ্যের গুণে কৌশলগত পরিবর্তন। বহু বছর ধরে, এই ক্ষেত্রটি একটি অন্তর্নিহিত ধারণার অধীনে কাজ করেছে: আরও অনুরূপ উদাহরণ ভাল। এই কাজটি প্ররোচকভাবে যুক্তি দেয় যে এটি ভুল। তথ্য লাভের শত্রু হল অতিরিক্ততা। কনট্রাস্টিভ লার্নিংয়ের নীতি—যা স্ব-তত্ত্বাবধায়িত ভিশনের মতো ডোমেইনে সফল (যেমন, সিমসিএলআর, চেন এট আল.)—ধার করে এবং এটিকে পুনরুদ্ধারে প্রয়োগ করে, তারা টিএম নির্বাচনের সমস্যাটিকে একটি সাধারণ সাদৃশ্য অনুসন্ধান থেকে ভাষাগত বৈশিষ্ট্যের জন্য একটি পোর্টফোলিও অপ্টিমাইজেশন সমস্যায় রূপান্তরিত করে। এটি একটি আরও পরিশীলিত এবং প্রতিশ্রুতিশীল দিক।
4.2 যৌক্তিক প্রবাহ
যুক্তিটি সুন্দরভাবে গঠিত। প্রথমত, তারা পূর্ববর্তী শিল্পের সমালোচনামূলক ত্রুটিটি (অতিরিক্ত পুনরুদ্ধার) একটি স্পষ্ট দৃশ্য উদাহরণ (চিত্র ১) দিয়ে চিহ্নিত করে। দ্বিতীয়ত, তারা একটি তিন-দিকযুক্ত সমাধান প্রস্তাব করে যা সমস্যাটিকে সামগ্রিকভাবে আক্রমণ করে: (১) উৎস (ভাল ইনপুটের জন্য কনট্রাস্টিভ পুনরুদ্ধার), (২) মডেল (ভাল প্রক্রিয়াকরণের জন্য এইচজিএ), এবং (৩) উদ্দেশ্য (ভাল শেখার জন্য কনট্রাস্টিভ লস)। এটি একটি এক-ট্রিক পনি নয়; এটি পুনরুদ্ধার-সমৃদ্ধ পাইপলাইনের একটি সম্পূর্ণ-স্ট্যাক পুনঃনকশা। যুক্তিটি আকর্ষণীয় কারণ প্রতিটি উপাদান বৈচিত্র্য প্রবর্তনের দ্বারা সৃষ্ট একটি নির্দিষ্ট দুর্বলতা সমাধান করে, মডেলটিকে ভিন্ন তথ্যে অভিভূত হওয়া থেকে রোধ করে।
4.3 শক্তি ও দুর্বলতা
শক্তি:
- ধারণাগত সৌন্দর্য: এমএমআর এবং কনট্রাস্টিভ লার্নিংয়ের প্রয়োগ স্বজ্ঞাত এবং ভালভাবে উদ্দেশ্যপ্রণোদিত।
- অনুভবিক কঠোরতা: প্রতিটি উপাদানের অবদান পৃথক করে এমন পুঙ্খানুপুঙ্খ অপসারণ গবেষণা সহ স্ট্যান্ডার্ড বেঞ্চমার্কগুলিতে শক্তিশালী অর্জন।
- সাধারণীকরণযোগ্য কাঠামো: নীতিগুলি (বৈচিত্র্য-অনুসন্ধানকারী পুনরুদ্ধার, সেটের শ্রেণীবদ্ধ এনকোডিং) এনএমটির বাইরে সংলাপ বা কোড জেনারেশনের মতো অন্যান্য পুনরুদ্ধার-সমৃদ্ধ কাজে প্রসারিত হতে পারে।
- গণনামূলক ওভারহেড: কনট্রাস্টিভ পুনরুদ্ধার ধাপ এবং এইচজিএ মডিউল জটিলতা যোগ করে। সরল বেসলাইনের তুলনায় বিলম্ব এবং থ্রুপুট বিশ্লেষণে গবেষণাপত্রটি হালকা—বাস্তব-বিশ্ব স্থাপনার জন্য একটি সমালোচনামূলক মেট্রিক।
- টিএম ডাটাবেস গুণমান নির্ভরতা: পদ্ধতির কার্যকারিতা অন্তর্নিহিতভাবে টিএম ডাটাবেসে উপস্থিত বৈচিত্র্যের সাথে জড়িত। স্বভাবগতভাবে সমজাতীয় ডেটা সহ বিশেষায়িত ডোমেইনে, লাভ প্রান্তিক হতে পারে।
- হাইপারপ্যারামিটার সংবেদনশীলতা: পুনরুদ্ধার স্কোরের $\lambda$ প্যারামিটার প্রাসঙ্গিকতা ও বৈচিত্র্যের মধ্যে ভারসাম্য বজায় রাখে। গবেষণাপত্রটি এই মূল পছন্দের প্রতি ফলাফলের সংবেদনশীলতা গভীরভাবে অন্বেষণ করে না, যা অনুশীলনে টিউনিংয়ের জন্য মাথাব্যথা হতে পারে।
4.4 বাস্তবায়নযোগ্য অন্তর্দৃষ্টি
অনুশীলনকারী এবং গবেষকদের জন্য:
- অবিলম্বে আপনার পুনরুদ্ধার নিরীক্ষা করুন: আপনি যদি পুনরুদ্ধার-সমৃদ্ধকরণ ব্যবহার করেন, আপনার শীর্ষ-কে ফলাফলের উপর একটি সাধারণ বৈচিত্র্য পরীক্ষা বাস্তবায়ন করুন। অতিরিক্ততা সম্ভবত আপনার কার্যক্ষমতার মূল্য দিচ্ছে।
- ডেটা কিউরেশনকে অগ্রাধিকার দিন: এই গবেষণা জোর দেয় যে মডেল কার্যক্ষমতা শুরু হয় ডেটা গুণমান দিয়ে। বৈচিত্র্যময়, উচ্চ-গুণমানের ট্রান্সলেশন মেমোরি ডাটাবেস কিউরেট করতে বিনিয়োগ করা স্থির ডেটার উপর প্রান্তিক স্থাপত্যিক উন্নতি অনুসরণ করার চেয়ে উচ্চতর রিটার্ন অন ইনভেস্টমেন্ট (আরওআই) দিতে পারে।
- ক্রস-ডোমেইন প্রয়োগ অন্বেষণ করুন: মূল ধারণাটি এনএমটি-নির্দিষ্ট নয়। পুনরুদ্ধার-সমৃদ্ধ চ্যাটবট, শব্দার্থিক অনুসন্ধান, বা এমনকি ফিউ-শট লার্নিংয়ে কাজ করা দলগুলির অনুরূপ কনট্রাস্টিভ পুনরুদ্ধার এবং সেট-এনকোডিং মেকানিজম ইনজেক্ট করে পরীক্ষা করা উচিত।
- দক্ষতা চাপ-পরীক্ষা করুন: গ্রহণের আগে, কার্যক্ষমতা লাভের বিপরীতে ইনফারেন্স গতি এবং মেমোরি ফুটপ্রিন্ট কঠোরভাবে বেঞ্চমার্ক করুন। উৎপাদন ব্যবস্থার জন্য ট্রেড-অফ ন্যায়সঙ্গত হতে হবে।
5. প্রযুক্তিগত বিবরণ
মূল প্রযুক্তিগত উদ্ভাবন শ্রেণীবদ্ধ গ্রুপ অ্যাটেনশন (এইচজিএ)-এ নিহিত। আনুষ্ঠানিকভাবে, ধরা যাক $H = \{h_1, h_2, ..., h_K\}$ হল $K$ টিএম-এর জন্য এনকোডেড উপস্থাপনার সেট। $i$-তম টিএম-এর জন্য স্থানীয় প্রসঙ্গ $c_i^{local}$ $h_i$ এর উপর স্ব-অ্যাটেনশনের মাধ্যমে পাওয়া যায়। গ্লোবাল প্রসঙ্গ $c^{global}$ সমস্ত টিএম উপস্থাপনার প্রতি মনোযোগ দিয়ে গণনা করা হয়: $c^{global} = \sum_{j=1}^{K} \alpha_j h_j$, যেখানে $\alpha_j$ একটি অ্যাটেনশন ওজন যা একটি প্রশ্ন (যেমন, উৎস বাক্য এনকোডিং) থেকে প্রাপ্ত। টিএম সেটের জন্য চূড়ান্ত উপস্থাপনা একটি গেটেড সমন্বয়: $c^{final} = \gamma \cdot c^{global} + (1-\gamma) \cdot \text{MeanPool}(\{c_i^{local}\})$, যেখানে $\gamma$ একটি শেখা গেট।
মাল্টি-টিএম কনট্রাস্টিভ লসকে একটি ইনফোএনসিই-স্টাইল লস হিসাবে গঠন করা যেতে পারে: $\mathcal{L}_{cont} = -\log \frac{\exp(sim(q, k^+)/\tau)}{\sum_{i=1}^{N} \exp(sim(q, k_i)/\tau)}$, যেখানে $q$ হল লক্ষ্য উপস্থাপনা, $k^+$ হল সমষ্টিগত পজিটিভ টিএম উপস্থাপনা, এবং $\{k_i\}$ নেগেটিভ নমুনা (অন্যান্য টিএম সেট বা অপ্রাসঙ্গিক লক্ষ্য) অন্তর্ভুক্ত করে।
6. কেস স্টাডি ও কাঠামো
বিশ্লেষণ কাঠামো উদাহরণ: একটি কোম্পানি বিবেচনা করুন যা একটি প্রযুক্তিগত ডকুমেন্টেশন অনুবাদক তৈরি করছে। তাদের টিএম ডাটাবেসে "বাটন ক্লিক করা" সম্পর্কে অনেক অনুরূপ বাক্য রয়েছে। একটি লোভী পুনরুদ্ধার সিস্টেম একাধিক প্রায় অভিন্ন উদাহরণ আনবে। কনট্রাস্টিভ পুনরুদ্ধার কাঠামো প্রয়োগ করে, সিস্টেমটিকে "কি চাপা", "মেনু আইটেম নির্বাচন করা", বা "আইকন ট্যাপ করা"—অনুরূপ ক্রিয়াকলাপের জন্য বৈচিত্র্যময় বাক্যাংশ—এর উদাহরণ পুনরুদ্ধার করার জন্য নির্দেশিত হবে। তারপর এইচজিএ মডিউল শিখবে যে প্রতিটি বাক্যাংশের স্থানীয় প্রসঙ্গ আলাদা হলেও, তাদের গ্লোবাল প্রসঙ্গ "ব্যবহারকারী ইন্টারফেস মিথস্ক্রিয়া" সম্পর্কিত। এই সমৃদ্ধ, বহু-দৃষ্টিকোণ ইনপুট অতিরিক্ত ডেটায় প্রশিক্ষিত একটি মডেলের তুলনায় মডেলটিকে আরও প্রাকৃতিক এবং বৈচিত্র্যময় অনুবাদ তৈরি করতে সক্ষম করে (যেমন, "ক্লিক" এর পুনরাবৃত্তিমূলক ব্যবহার এড়ানো)। এই কাঠামোটি ট্রান্সলেশন মেমোরিকে একটি সাধারণ কপি-পেস্ট টুল থেকে একটি সৃজনশীল প্যারাফ্রেজিং সহকারীতে স্থানান্তরিত করে।
7. ভবিষ্যৎ প্রয়োগ ও দিকনির্দেশনা
এখানে প্রতিষ্ঠিত নীতিগুলির বিস্তৃত প্রভাব রয়েছে:
- কম-সম্পদ ও ডোমেইন অভিযোজন: কনট্রাস্টিভ পুনরুদ্ধার একটি সাধারণ এনএমটি মডেলকে একটি বিশেষায়িত ডোমেইনে (যেমন, আইনি, চিকিৎসা) অভিযোজনের জন্য সবচেয়ে তথ্যপূর্ণ এবং বৈচিত্র্যময় ফিউ-শট উদাহরণ খুঁজে পেতে গুরুত্বপূর্ণ হতে পারে।
- ইন্টারেক্টিভ ট্রান্সলেশন সিস্টেম: মডেলটি মানব অনুবাদকদের জন্য কনট্রাস্টিভ অনুবাদ বিকল্পগুলির একটি সেট সক্রিয়ভাবে প্রস্তাব করতে পারে, তাদের উৎপাদনশীলতা এবং সামঞ্জস্যতা বৃদ্ধি করে।
- মাল্টিমোডাল ট্রান্সলেশন: ধারণাটি শুধুমাত্র টেক্সট নয়, বৈচিত্র্যময়, পরিপূরক মোডালিটি (যেমন, একটি চিত্র, একটি সম্পর্কিত অডিও বর্ণনা) পুনরুদ্ধার করতে প্রসারিত হতে পারে যাতে দ্ব্যর্থক উৎস বাক্য অনুবাদ করতে সহায়তা করে।
- গতিশীল টিএম ডাটাবেস: ভবিষ্যতের কাজ টিএম ডাটাবেসগুলিতে ফোকাস করতে পারে যা বিকশিত হয়, যেখানে কনট্রাস্টিভ পুনরুদ্ধার অ্যালগরিদমও জানায় যে ভবিষ্যতের বৈচিত্র্য এবং উপযোগিতা সর্বাধিক করার জন্য কোন নতুন অনুবাদ যোগ করা উচিত।
- লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম) এর সাথে একীকরণ: এই কাঠামোটি অনুবাদের জন্য এলএলএম-কে ইন-কনটেক্সট উদাহরণ প্রদানের একটি কাঠামোগত, দক্ষ উপায় অফার করে, যা নিষ্ক্রিয় প্রম্পটিংয়ের তুলনায় সম্ভবত হ্যালুসিনেশন হ্রাস করে এবং নিয়ন্ত্রণযোগ্যতা উন্নত করে।
8. তথ্যসূত্র
- Cheng, X., Gao, S., Liu, L., Zhao, D., & Yan, R. (2022). Neural Machine Translation with Contrastive Translation Memories. arXiv preprint arXiv:2212.03140.
- Gu, J., Wang, Y., Cho, K., & Li, V. O. (2018). Search engine guided neural machine translation. Proceedings of the AAAI Conference on Artificial Intelligence.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems.
- Carbonell, J., & Goldstein, J. (1998). The use of MMR, diversity-based reranking for reordering documents and producing summaries. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval.
- Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. International conference on machine learning.
- Khandelwal, U., Levy, O., Jurafsky, D., Zettlemoyer, L., & Lewis, M. (2020). Generalization through memorization: Nearest neighbor language models. arXiv preprint arXiv:1911.00172.