1. ভূমিকা
বাণিজ্যিক মেশিন অনুবাদ (এমটি) পরিষেবাগুলি বিপুল পরিমাণ অন্তর্নিহিত ব্যবহারকারী প্রতিক্রিয়া (যেমন, পোস্ট-এডিট, ক্লিক, অবস্থানকাল) তৈরি করে। অনলাইন লার্নিং চলাকালীন ব্যবহারকারীর অভিজ্ঞতা খারাপ না করে সিস্টেম উন্নতির জন্য এই "স্বর্ণখনি" কাজে লাগানো একটি গুরুত্বপূর্ণ চ্যালেঞ্জ। এই গবেষণাপত্রটি একটি ঐতিহাসিক (লগিং) নীতি দ্বারা উৎপাদিত লগ করা ইন্টারঅ্যাকশন ডেটা থেকে অফলাইন শেখার স্বাভাবিক প্যারাডাইম হিসেবে কাউন্টারফ্যাকচুয়াল লার্নিংকে স্থাপন করে। তবে, বাণিজ্যিক সীমাবদ্ধতাগুলি সাধারণত নির্ধারিত লগিং নীতিকে বাধ্য করে—শুধুমাত্র সিস্টেমের সেরা অনুমান দেখানো—যা স্পষ্ট অন্বেষণের অভাব রাখে এবং ইনভার্স প্রপেনসিটি স্কোরিং (আইপিএস)-এর মতো স্ট্যান্ডার্ড অফ-পলিসি মূল্যায়ন পদ্ধতির মূল অনুমান লঙ্ঘন করে। এই কাজটি এমন নির্ধারিত পরিবেশে উদ্ভূত অবক্ষয়গুলির একটি আনুষ্ঠানিক বিশ্লেষণ প্রদান করে এবং সেগুলিকে সম্প্রতি প্রস্তাবিত সমাধানের সাথে সংযুক্ত করে।
2. মেশিন অনুবাদের জন্য কাউন্টারফ্যাকচুয়াল লার্নিং
গবেষণাপত্রটি ব্যান্ডিট স্ট্রাকচার্ড প্রেডিকশন কাঠামোর মধ্যে সমস্যাটিকে আনুষ্ঠানিক রূপ দেয়, যেখানে লক্ষ্য হল একটি ভিন্ন লগিং নীতি দ্বারা উৎপাদিত লগগুলি থেকে একটি নতুন টার্গেট নীতির মূল্যায়ন ও শেখা।
2.1 সমস্যার আনুষ্ঠানিক রূপ
- ইনপুট/আউটপুট: স্ট্রাকচার্ড ইনপুট স্পেস $X$, ইনপুট $x$-এর জন্য আউটপুট স্পেস $Y(x)$।
- পুরস্কার: ফাংশন $\delta: Y \rightarrow [0,1]$ যা আউটপুটের গুণমান পরিমাপ করে।
- ডেটা লগ: $D = \{(x_t, y_t, \delta_t)\}_{t=1}^n$ যেখানে $y_t \sim \mu(\cdot|x_t)$ এবং $\delta_t$ হল পর্যবেক্ষিত পুরস্কার। স্টোকাস্টিক লগিং-এ, প্রবণতা $\mu(y_t|x_t)$-ও লগ করা হয়।
- লক্ষ্য: লগ $D$ ব্যবহার করে একটি টার্গেট নীতি $\pi_w$-এর প্রত্যাশিত পুরস্কার অনুমান করা।
2.2 অনুমানকারী ও অবক্ষয়
স্ট্যান্ডার্ড ইনভার্স প্রপেনসিটি স্কোরিং (আইপিএস) অনুমানকারী হল:
$$\hat{V}_{\text{IPS}}(\pi_w) = \frac{1}{n} \sum_{t=1}^{n} \delta_t \frac{\pi_w(y_t | x_t)}{\mu(y_t | x_t)}$$
এই অনুমানকারী নিরপেক্ষ হবে যদি $\mu(y_t|x_t) > 0$ হয় যখনই $\pi_w(y_t|x_t) > 0$ (কমন সাপোর্ট)। গবেষণাপত্রটি আইপিএস এবং এর স্ব-স্বাভাবিকীকৃত (বা পুনরায় ওজনযুক্ত) রূপের অবক্ষয় বিশ্লেষণ করে যখন এই অনুমানটি ভঙ্গ হয়, বিশেষত নির্ধারিত লগিং-এর অধীনে যেখানে প্রদর্শিত কর্মের জন্য $\mu(y_t|x_t) = 1$ এবং অন্যান্য সকলের জন্য $0$।
3. মূল অন্তর্দৃষ্টি ও যৌক্তিক প্রবাহ
মূল অন্তর্দৃষ্টি: গবেষণাপত্রের তীক্ষ্ণ অন্তর্দৃষ্টি হল যে, নির্ধারিত লগে ভ্যানিলা অফ-পলিসি অনুমানকারী প্রয়োগ করা শুধুই সাবঅপটিমাল নয়—এটি মৌলিকভাবে ভাঙা। অবক্ষয়টি একটি ছোট শোরগোলের সমস্যা নয়; এটি একটি কাঠামোগত পতন। আইপিএস অনুমানকারীর প্রকরণ অসীম হয়ে যায় কারণ আপনি কার্যত নির্ধারিত লগার দ্বারা নেওয়া হয়নি এমন যেকোনো কর্মের জন্য শূন্য (বা প্রায়-শূন্য) সম্ভাব্যতা দ্বারা ভাগ করছেন। এটি কোনো একাডেমিক ফুটনোট নয়; এটি প্রযুক্তি জায়ান্টদের তাদের নিজস্ব ব্যবহারকারী ইন্টারঅ্যাকশন ডেটা অফলাইনে অনুবাদ মডেল উন্নত করতে নিরাপদে ব্যবহার করতে বাধা দেওয়ার মূল বাধা।
যৌক্তিক প্রবাহ: যুক্তিটি অত্যন্ত সুনির্দিষ্টভাবে এগোয়: (১) বাস্তব-বিশ্বের সীমাবদ্ধতা স্থাপন করা (প্রোডাকশন এমটিতে নির্ধারিত লগিং)। (২) দেখানো কীভাবে স্ট্যান্ডার্ড তত্ত্ব (আইপিএস) এই সীমাবদ্ধতার অধীনে বিপর্যয়করভাবে ব্যর্থ হয়। (৩) নির্দিষ্ট গাণিতিক অবক্ষয়গুলির বিশ্লেষণ (অসীম প্রকরণ, পক্ষপাত-প্রকরণ ট্রেড-অফ)। (৪) এই ব্যর্থতাগুলিকে ডাবলি রোবাস্ট অনুমান এবং ওয়েটেড ইম্পর্টেন্স স্যাম্পলিং-এর মতো ব্যবহারিক সমাধানের সাথে সংযুক্ত করা, যা নির্ধারিত উপাদানগুলির জন্য "স্মুথনার" হিসেবে কাজ করে। যুক্তিটি অটুট: সমস্যা → ব্যর্থতার মোড → মূল কারণ → সমাধানের পথ।
4. শক্তি ও দুর্বলতা
শক্তি:
- ব্যবহারিক ফোকাস: এটি একটি জটিল, বাস্তব-বিশ্বের সমস্যা (নির্ধারিত লগ) মোকাবেলা করে যা ব্যান্ডিট সাহিত্যের অনেকাংশ সুবিধাজনকভাবে অন্বেষণ ধরে নিয়ে উপেক্ষা করে।
- আনুষ্ঠানিক স্বচ্ছতা: অবক্ষয়গুলির গাণিতিক বিশ্লেষণ পরিষ্কার এবং সরাসরি তত্ত্বকে স্ট্যান্ডার্ড পদ্ধতির ব্যবহারিক ব্যর্থতার সাথে সংযুক্ত করে।
- সেতু নির্মাণ: এটি ক্লাসিকাল কার্যকারণ অনুমান পদ্ধতি (আইপিএস, ডিআর) কে এনএলপি-তে সমসাময়িক এমএল ইঞ্জিনিয়ারিং সমস্যার সাথে সফলভাবে সংযুক্ত করে।
দুর্বলতা ও হারানো সুযোগ:
- সিমুলেশনের ওপর নির্ভরতা: বিশ্লেষণটি আনুষ্ঠানিক হলেও, প্রাথমিকভাবে সিমুলেটেড প্রতিক্রিয়ার উপর বৈধতা প্রাপ্ত। ক্লিকের মতো কোলাহলপূর্ণ, স্পার্স, বাস্তব-বিশ্বের ব্যবহারকারী সংকেতে লাফ দেওয়া বিশাল এবং অপর্যাপ্তভাবে অন্বেষিত।
- স্কেলেবিলিটির ভূত: এটি বিশাল, ওয়েব-স্কেল অনুবাদ লগের উপর এই পদ্ধতিগুলির গণনীয় খরচ সম্পর্কে কিছুই বলে না। ডাবলি রোবাস্ট পদ্ধতির জন্য পুরস্কার মডেল প্রশিক্ষণের প্রয়োজন—ইবে-এর ক্লিক ডেটার জন্য সম্ভব, কিন্তু ফেসবুকের ট্রিলিয়ন-স্কেল অনুবাদ ইভেন্টের কী হবে?
- বিকল্প পথ: গবেষণাপত্রটি প্রবণতা-ভিত্তিক পদ্ধতি ঠিক করার উপর সংকীর্ণভাবে ফোকাস করে। এটি ডাইরেক্ট মেথড অপ্টিমাইজেশন বা রিপ্রেজেন্টেশন লার্নিং পদ্ধতির মতো বিকল্প প্যারাডাইমগুলিকে অপর্যাপ্ত গুরুত্ব দেয় যা সম্পূর্ণরূপে প্রবণতা সমস্যা এড়িয়ে যেতে পারে, যেমন ডিফোরএল বেঞ্চমার্কের মতো ডেটাসেট থেকে অফলাইন রিইনফোর্সমেন্ট লার্নিং-এর অগ্রগতিতে দেখা যায়।
5. বাস্তবায়নযোগ্য অন্তর্দৃষ্টি
ব্যবহারিকবিদ ও পণ্য দলগুলির জন্য:
- আপনার লগ অডিট করুন: কোনো অফলাইন লার্নিং পাইপলাইন তৈরি করার আগে, আপনার লগিং নীতিতে নির্ধারিততা নির্ণয় করুন। অভিজ্ঞতামূলক কর্ম কভারেজ গণনা করুন। যদি এটি ১-এর কাছাকাছি হয়, ভ্যানিলা আইপিএস ব্যর্থ হবে।
- আপনার বেসলাইন হিসেবে ডাবলি রোবাস্ট (ডিআর) বাস্তবায়ন করুন: আইপিএস দিয়ে শুরু করবেন না। ডিআর অনুমান দিয়ে শুরু করুন। এটি সাপোর্ট ইস্যুতে বেশি রোবাস্ট এবং প্রায়শই কম প্রকরণ থাকে। ভাওপাল ওয়াবিট বা গুগলের টিএফ-এজেন্টসের মতো লাইব্রেরিগুলি এখন বাস্তবায়ন অফার করে।
- অণুবীক্ষণিক, নিয়ন্ত্রিত অন্বেষণ চালু করুন: সেরা সমাধান হল খাঁটি নির্ধারিততা এড়ানো। একটি ক্ষুদ্র $\epsilon$ (যেমন, ০.১%) সহ একটি এপসিলন-গ্রিডি লগিং নীতির পক্ষে সমর্থন করুন। খরচ নগণ্য, ভবিষ্যতের অফলাইন লার্নিংয়ের জন্য সুবিধা বিশাল। এটি সবচেয়ে প্রভাবশালী ইঞ্জিনিয়ারিং টেকঅ্যাওয়ে।
- পরিবেশ সিমুলেটর দিয়ে ব্যাপকভাবে বৈধতা দিন: অফলাইনে শেখা একটি নীতি মোতায়েন করার আগে, একটি উচ্চ-নির্ভুলতা সিমুলেটর (যদি উপলব্ধ থাকে) বা কঠোর এ/বি টেস্টিং কাঠামো ব্যবহার করুন। নির্ধারিত লগ থেকে পক্ষপাতগুলি গোপনীয়।
6. প্রযুক্তিগত বিবরণ ও গাণিতিক কাঠামো
গবেষণাপত্রটি আইপিএস অনুমানকারীর প্রকরণে গভীরভাবে প্রবেশ করে, দেখায় যে নির্ধারিত লগিং-এর অধীনে, লগ করা কর্ম $y_t$-এর জন্য প্রবণতা $\mu(y_t|x_t)$ হল 1 এবং অন্য সকল $y' \ne y_t$-এর জন্য 0। এটি অনুমানকারীকে লগ করা কর্মগুলির জন্য পর্যবেক্ষিত পুরস্কারের গড়ে সরলীকরণের দিকে নিয়ে যায়, কিন্তু যখন একটি টার্গেট নীতি $\pi_w$-এর মূল্যায়ন করা হয় যা লগে নেই এমন কর্মগুলিতে সম্ভাব্যতা বরাদ্দ করে, তখন অসীম প্রকরণ দেখা দেয়, কারণ $\pi_w(y'|x_t)/0$ শব্দটি অসংজ্ঞায়িত।
স্ব-স্বাভাবিকীকৃত বা পুনরায় ওজনযুক্ত আইপিএস (এসএনআইপিএস) অনুমানকারী উপস্থাপন করা হয়েছে:
$$\hat{V}_{\text{SNIPS}}(\pi_w) = \frac{\sum_{t=1}^{n} \delta_t w_t}{\sum_{t=1}^{n} w_t}, \quad \text{যেখানে } w_t = \frac{\pi_w(y_t | x_t)}{\mu(y_t | x_t)}$$
এই অনুমানকারী পক্ষপাতদুষ্ট কিন্তু প্রায়শই কম প্রকরণ থাকে। গবেষণাপত্রটি পক্ষপাত-প্রকরণ ট্রেড-অফ বিশ্লেষণ করে, বিশেষভাবে হাইলাইট করে কীভাবে নির্ধারিত ক্ষেত্রে, ওজন স্বাভাবিকীকরণের মাধ্যমে আইপিএস-এর চেয়ে এসএনআইপিএস আরও স্থিতিশীল অনুমান প্রদান করতে পারে, যদিও লগিং এবং টার্গেট নীতি খুব অসদৃশ হলে উল্লেখযোগ্য পক্ষপাত থেকে যেতে পারে।
ডাবলি রোবাস্ট (ডিআর) অনুমানকারী একটি সরাসরি পুরস্কার মডেল $\hat{\delta}(x, y)$-কে আইপিএস সংশোধনের সাথে একত্রিত করে:
$$\hat{V}_{\text{DR}}(\pi_w) = \frac{1}{n} \sum_{t=1}^{n} \left[ \hat{\delta}(x_t, y_t) + \frac{\pi_w(y_t | x_t)}{\mu(y_t | x_t)} (\delta_t - \hat{\delta}(x_t, y_t)) \right]$$
এই অনুমানকারী প্রবণতা মডেল $\mu$ বা পুরস্কার মডেল $\hat{\delta}$-এর যেকোনো একটির ভুল স্পেসিফিকেশনের প্রতি রোবাস্ট।
7. পরীক্ষামূলক ফলাফল ও অনুসন্ধান
গবেষণাপত্রটি লরেন্স এট আল. (২০১৭)-এর পরীক্ষামূলক অনুসন্ধানের উল্লেখ করে, যার আনুষ্ঠানিক বিশ্লেষণ এই কাজটি করে। সিমুলেশনের উপর ভিত্তি করে মূল ফলাফলগুলির মধ্যে রয়েছে:
- আইপিএস ব্যর্থতা: নির্ধারিত লগিং-এর অধীনে, লগার থেকে ভিন্ন নীতিগুলি মূল্যায়ন করার সময় আইপিএস অনুমানকারী অত্যন্ত উচ্চ প্রকরণ এবং অবিশ্বস্ত পারফরম্যান্স প্রদর্শন করে।
- স্মুথিং কৌশলের কার্যকারিতা: ডাবলি রোবাস্ট অনুমান এবং ওয়েটেড ইম্পর্টেন্স স্যাম্পলিং-এর মতো পদ্ধতিগুলি লগিং নীতির নির্ধারিত উপাদানগুলিকে কার্যকরভাবে "স্মুথ আউট" করতে দেখানো হয়েছে। স্ট্যান্ডার্ড আইপিএস-এর তুলনায় তারা আরও স্থিতিশীল এবং সঠিক অফ-পলিসি মূল্যায়ন অর্জন করেছে।
- নীতি উন্নতি: অফলাইন নীতি শেখার জন্য (যেমন, $\hat{V}$-এর উপর গ্রেডিয়েন্ট অ্যাসেন্টের মাধ্যমে) এই রোবাস্ট অনুমানকারী ব্যবহার করে নির্ধারিত লগ থেকে উন্নত অনুবাদ নীতি সফলভাবে চিহ্নিত করা সম্ভব হয়েছিল, যা নিষ্কপট আইপিএস-এর সাথে সম্ভব ছিল না।
চার্ট ব্যাখ্যা: যদিও প্রদত্ত নির্দিষ্ট পিডিএফ-এ চিত্র নেই, এই ডোমেনে সাধারণ চার্টগুলি বিভিন্ন অনুমানকারীর জন্য সিমুলেশনে প্রকৃত মানের বিপরীতে অনুমানকৃত নীতি মান $\hat{V}$ প্লট করবে। আশা করা যায়: ১) আইপিএস পয়েন্টগুলি ব্যাপকভাবে ছড়িয়ে থাকবে উচ্চ প্রকরণ সহ, বিশেষ করে লগিং নীতি থেকে দূরের নীতিগুলির জন্য। ২) এসএনআইপিএস পয়েন্টগুলি আরও দৃঢ়ভাবে গুচ্ছবদ্ধ কিন্তু প্রকৃত মান রেখা থেকে স্থানান্তরিত (পক্ষপাতদুষ্ট) হতে পারে। ৩) ডিআর পয়েন্টগুলি কম প্রকরণ সহ প্রকৃত মান রেখার সাথে ঘনিষ্ঠভাবে সারিবদ্ধ, এর রোবাস্টনেস প্রদর্শন করে।
8. বিশ্লেষণ কাঠামো: একটি ব্যবহারিক কেস
পরিস্থিতি: একটি ই-কমার্স প্ল্যাটফর্ম স্প্যানিশ থেকে ইংরেজিতে পণ্য পর্যালোচনা অনুবাদের জন্য একটি নির্ধারিত এমটি সিস্টেম ব্যবহার করে। লগিং নীতি $\mu$ সর্বদা একটি অন্তর্নিহিত মডেল থেকে শীর্ষ-১ অনুবাদ বেছে নেয়। ব্যবহারকারী জড়িততা (পুরস্কার $\delta$) একটি বাইনারি সংকেত হিসেবে পরিমাপ করা হয়: ১ যদি ব্যবহারকারী অনূদিত পর্যালোচনায় "সহায়ক" ক্লিক করে, অন্যথায় ০। এক বছরের লগ $D$ সংগ্রহ করা হয়।
লক্ষ্য: একটি নতুন টার্গেট নীতি $\pi_w$-এর অফলাইন মূল্যায়ন যা বৈচিত্র্য বাড়ানোর জন্য কখনও কখনও দ্বিতীয় সেরা অনুবাদ দেখায়।
কাঠামো প্রয়োগ:
- সমস্যা: যেকোনো উদাহরণের জন্য যেখানে $\pi_w$ লগ করা অনুবাদ থেকে ভিন্ন একটি অনুবাদ নির্বাচন করে, $\mu(y_t|x_t)=0$, যা আইপিএস ওজনকে অসীম/অসংজ্ঞায়িত করে তোলে। স্ট্যান্ডার্ড মূল্যায়ন ব্যর্থ হয়।
- ডিআর-এর সমাধান:
- লগ করা ডেটার উপর একটি পুরস্কার মডেল $\hat{\delta}(x, y)$ (যেমন, একটি ক্লাসিফায়ার) প্রশিক্ষণ দিন যাতে উৎস পাঠ্য এবং একটি প্রার্থী অনুবাদ দেওয়া "সহায়ক" ক্লিকের সম্ভাবনা ভবিষ্যদ্বাণী করে।
- প্রতিটি লগ করা উদাহরণ $(x_t, y_t^{\text{log}}, \delta_t)$-এর জন্য ডিআর অনুমান গণনা করুন:
- প্রবণতা $\mu(y_t^{\text{log}}|x_t)=1$।
- টার্গেট নীতি ওজন $\pi_w(y_t^{\text{log}}|x_t)$ (ছোট হতে পারে যদি $\pi_w$ ভিন্ন অনুবাদ পছন্দ করে)।
- ডিআর অবদান = $\hat{\delta}(x_t, y_t^{\text{log}}) + \pi_w(y_t^{\text{log}}|x_t) \cdot (\delta_t - \hat{\delta}(x_t, y_t^{\text{log}}))$।
- সকল লগের উপর গড় করে $\hat{V}_{\text{DR}}(\pi_w)$ পান। এই অনুমান বৈধ থাকে যদিও $\pi_w$ অদেখা কর্মগুলিতে ভর বরাদ্দ করে, কারণ পুরস্কার মডেল $\hat{\delta}$ কভারেজ প্রদান করে।
- ফলাফল: প্ল্যাটফর্মটি ব্যবহারকারীদের কখনও $\pi_w$ দেখানো ছাড়াই লগ করা নীতির পারফরম্যান্সের বিপরীতে $\hat{V}_{\text{DR}}(\pi_w)$ নির্ভরযোগ্যভাবে তুলনা করতে পারে, নিরাপদ অফলাইন টেস্টিং সক্ষম করে।
9. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশ
- এমটির বাইরে: এই কাঠামো সরাসরি যেকোনো নির্ধারিত টেক্সট জেনারেশন পরিষেবায় প্রয়োগযোগ্য: চ্যাটবট, ইমেল অটো-কমপ্লিট, কোড জেনারেশন (যেমন, গিটহাব কপিলট), এবং বিষয়বস্তু সারসংক্ষেপ। অন্বেষণ ছাড়াই লগ থেকে শেখার মূল সমস্যা সর্বব্যাপী।
- লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম)-এর সাথে একীকরণ: যেহেতু এলএলএম অনেক অ্যাপ্লিকেশনের জন্য ডিফল্ট লগিং নীতি হয়ে উঠছে, বেস মডেলের লগের বিপরীতে ফাইন-টিউন বা প্রম্পটেড সংস্করণগুলির অফলাইন মূল্যায়ন অত্যন্ত গুরুত্বপূর্ণ হবে। এলএলএম-এর কর্ম স্পেসে ডিআর/এসএনআইপিএস পদ্ধতিগুলি স্কেল করার উপর গবেষণা প্রয়োজন।
- সক্রিয় ও অভিযোজিত লগিং: ভবিষ্যতের সিস্টেমগুলি মেটা-নীতি নিয়োগ করতে পারে যা অনিশ্চয়তা অনুমানের উপর ভিত্তি করে নির্ধারিত এবং সামান্য স্টোকাস্টিকের মধ্যে লগিং কৌশল গতিশীলভাবে সামঞ্জস্য করে, তাৎক্ষণিক ব্যবহারকারী অভিজ্ঞতা এবং ভবিষ্যতের শেখার ক্ষমতার মধ্যে ট্রেড-অফ অপ্টিমাইজ করে।
- কার্যকারণ পুরস্কার মডেলিং: সাধারণ পুরস্কার ভবিষ্যদ্বাণীকারীদের বাইরে গিয়ে ব্যবহারকারী আচরণে বিভ্রান্তিকর ভেরিয়েবল (যেমন, ব্যবহারকারীর দক্ষতা, দিনের সময়) বিবেচনা করে এমন মডেলগুলিতে যাওয়া ডিআর অনুমানকারীতে সরাসরি পদ্ধতি উপাদানের রোবাস্টনেস উন্নত করবে।
- বেঞ্চমার্ক ও মানকীকরণ: এই ক্ষেত্রটির জন্য বাস্তব-বিশ্বের নির্ধারিত লগ (সম্ভবত শিল্প অংশীদারদের কাছ থেকে বেনামী) সহ উন্মুক্ত বেঞ্চমার্কের প্রয়োজন যাতে অফলাইন লার্নিং অ্যালগরিদমগুলিকে কঠোরভাবে তুলনা করা যায়, "নিউরআইপিএস অফলাইন রিইনফোর্সমেন্ট লার্নিং ওয়ার্কশপ" ডেটাসেটের ভূমিকার অনুরূপ।
10. তথ্যসূত্র
- Lawrence, C., Gajane, P., & Riezler, S. (2017). Counterfactual Learning for Machine Translation: Degeneracies and Solutions. NIPS 2017 Workshop "From 'What If?' To 'What Next?'".
- Dudik, M., Langford, J., & Li, L. (2011). Doubly Robust Policy Evaluation and Learning. Proceedings of the 28th International Conference on Machine Learning (ICML).
- Jiang, N., & Li, L. (2016). Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. Proceedings of the 33rd International Conference on Machine Learning (ICML).
- Thomas, P., & Brunskill, E. (2016). Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning. Proceedings of the 33rd International Conference on Machine Learning (ICML).
- Sokolov, A., Kreutzer, J., Lo, C., & Riezler, S. (2016). Stochastic Structured Prediction under Bandit Feedback. Advances in Neural Information Processing Systems 29 (NIPS).
- Chapelle, O., & Li, L. (2011). An Empirical Evaluation of Thompson Sampling. Advances in Neural Information Processing Systems 24 (NIPS).
- Levine, S., Kumar, A., Tucker, G., & Fu, J. (2020). Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems. arXiv preprint arXiv:2005.01643. (For context on alternative paradigms and benchmarks like D4RL).
- OpenAI. (2023). GPT-4 Technical Report. (As an example of a state-of-the-art deterministic logging policy in generative AI).