সূচিপত্র
1. ভূমিকা
এই গবেষণাপত্রটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP)-এর জন্য ডেটা অগমেন্টেশন কৌশল, বিশেষভাবে সংক্ষিপ্ত পাঠ্য শ্রেণীবিভাজনের লক্ষ্যে, অনুসন্ধান করে। কম্পিউটার ভিশনে অগমেন্টেশনের সাফল্য দ্বারা অনুপ্রাণিত হয়ে, লেখকগণ NLP কাজের জন্য কার্যকর অগমেন্টেশন কৌশল সম্পর্কে অনুশীলনকারীদের একটি স্পষ্ট ধারণা প্রদান করতে চান, যেখানে লেবেলযুক্ত ডেটা সীমিত। সমাধান করা মূল চ্যালেঞ্জ হল বিশাল লেবেলযুক্ত ডেটাসেটের প্রয়োজন ছাড়াই মডেলের কার্যকারিতা ও দৃঢ়তা উন্নত করা, যা ভুয়া খবর শনাক্তকরণ, অনুভূতি বিশ্লেষণ এবং সামাজিক যোগাযোগ মাধ্যম পর্যবেক্ষণের মতো বাস্তব-বিশ্বের অ্যাপ্লিকেশনে একটি সাধারণ সীমাবদ্ধতা।
2. গ্লোবাল অগমেন্টেশন পদ্ধতি
গবেষণাপত্রটি গ্লোবাল অগমেন্টেশন পদ্ধতি-এর উপর দৃষ্টি নিবদ্ধ করে, যা শব্দগুলিকে প্রসঙ্গ-নির্দিষ্ট উপযুক্ততার পরিবর্তে একটি কর্পাস জুড়ে তাদের সাধারণ শব্দার্থিক সাদৃশ্যের ভিত্তিতে প্রতিস্থাপন করে। এই পদ্ধতিকে আরও জটিল, প্রসঙ্গ-সচেতন পদ্ধতির সাথে বৈপরীত্য দেখানো হয়েছে।
2.1 ওয়ার্ডনেট-ভিত্তিক অগমেন্টেশন
এই পদ্ধতিটি একটি পাঠ্যের শব্দগুলির প্রতিশব্দ খুঁজে পেতে ওয়ার্ডনেট শব্দভাণ্ডার ডেটাবেস ব্যবহার করে। এটি একটি শব্দকে ওয়ার্ডনেট থেকে তার একটি প্রতিশব্দ দ্বারা প্রতিস্থাপন করে, শব্দভাণ্ডারগত বৈচিত্র্য নিয়ে আসে। এর শক্তি এর ভাষাগত ভিত্তিতে নিহিত, কিন্তু এটি আধুনিক বা ডোমেন-নির্দিষ্ট ভাষাকে ভালোভাবে ধারণ নাও করতে পারে।
2.2 ওয়ার্ডটুভেক-ভিত্তিক অগমেন্টেশন
এই কৌশলটি ওয়ার্ডটুভেক বা অনুরূপ শব্দ এম্বেডিং মডেল (যেমন গ্লোভ) ব্যবহার করে। এটি একটি শব্দকে অন্য একটি শব্দ দ্বারা প্রতিস্থাপন করে যা এম্বেডিং ভেক্টর স্পেসে তার কাছাকাছি অবস্থান করে (যেমন, কোসাইন সাদৃশ্যের ভিত্তিতে)। এটি একটি ডেটা-চালিত পদ্ধতি যা বৃহৎ কর্পাস থেকে শেখা শব্দার্থিক সম্পর্ক ধারণ করতে পারে।
2.3 রাউন্ড-ট্রিপ ট্রান্সলেশন
এই পদ্ধতিটি একটি বাক্যকে একটি মধ্যবর্তী ভাষায় (যেমন, ফরাসি) অনুবাদ করে এবং তারপর মেশিন অনুবাদ পরিষেবা (যেমন, গুগল ট্রান্সলেট) ব্যবহার করে মূল ভাষায় (যেমন, ইংরেজি) ফিরিয়ে আনে। এই প্রক্রিয়াটি প্রায়শই প্যারাফ্রেজিং এবং বাক্য গঠনগত বৈচিত্র্য নিয়ে আসে। লেখকগণ উল্লেখযোগ্য ব্যবহারিক সীমাবদ্ধতার কথা উল্লেখ করেছেন: খরচ এবং প্রবেশাধিকার, বিশেষ করে স্বল্প-সম্পদ ভাষার জন্য।
3. NLP-এর জন্য মিক্সআপ
গবেষণাপত্রটি কম্পিউটার ভিশন [34] থেকে উদ্ভূত মিক্সআপ নিয়মিতকরণ কৌশলটিকে NLP-এ প্রয়োগ করার বিষয়টি অন্বেষণ করে। মিক্সআপ জোড়া ইনপুট নমুনা এবং তাদের সংশ্লিষ্ট লেবেলগুলির মধ্যে রৈখিকভাবে অন্তঃক্ষেপণ করে ভার্চুয়াল প্রশিক্ষণ উদাহরণ তৈরি করে। পাঠ্যের জন্য, এটি এম্বেডিং স্পেসে প্রয়োগ করা হয়। দুটি বাক্য এম্বেডিং $\mathbf{z}_i$ এবং $\mathbf{z}_j$, এবং তাদের ওয়ান-হট লেবেল ভেক্টর $\mathbf{y}_i$ এবং $\mathbf{y}_j$ দেওয়া থাকলে, একটি নতুন নমুনা নিম্নরূপ তৈরি করা হয়:
$\mathbf{z}_{new} = \lambda \mathbf{z}_i + (1 - \lambda) \mathbf{z}_j$
$\mathbf{y}_{new} = \lambda \mathbf{y}_i + (1 - \lambda) \mathbf{y}_j$
যেখানে $\lambda \sim \text{Beta}(\alpha, \alpha)$ এবং $\alpha \in (0, \infty)$। এটি মসৃণ সিদ্ধান্ত সীমানাকে উৎসাহিত করে এবং ওভারফিটিং হ্রাস করে।
4. পরীক্ষামূলক সেটআপ ও ফলাফল
4.1 ডেটাসেটসমূহ
বিভিন্ন পাঠ্য শৈলী কভার করতে তিনটি ডেটাসেটে পরীক্ষা চালানো হয়েছিল:
- সামাজিক যোগাযোগ মাধ্যমের পাঠ্য: সংক্ষিপ্ত, অনানুষ্ঠানিক ব্যবহারকারী-উৎপাদিত কন্টেন্ট।
- খবরের শিরোনাম: সংক্ষিপ্ত, আনুষ্ঠানিক পাঠ্য।
- আনুষ্ঠানিক খবরের নিবন্ধ: দীর্ঘ, কাঠামোবদ্ধ পাঠ্য।
একটি গভীর শেখার মডেল (সম্ভবত একটি সিএনএন বা আরএনএন-ভিত্তিক শ্রেণীবিভাজক) বেসলাইন হিসেবে ব্যবহার করা হয়েছিল।
4.2 ফলাফল ও বিশ্লেষণ
চার্ট বর্ণনা (পাঠ্যের উপর ভিত্তি করে কল্পনা করা): একটি বার চার্ট যা বেসলাইন মডেলের শ্রেণীবিভাজন নির্ভুলতা (এফ১-স্কোর) ওয়ার্ডনেট, ওয়ার্ডটুভেক এবং রাউন্ড-ট্রিপ ট্রান্সলেশনের মাধ্যমে অগমেন্টেড ডেটা দিয়ে প্রশিক্ষিত মডেলগুলির সাথে তুলনা করে, উভয় ক্ষেত্রেই মিক্সআপ সহ ও ছাড়া। একটি লাইন গ্রাফ ওভারলে যাচাইকরণ লস কার্ভ দেখায়, যা মিক্সআপ ব্যবহারকারী মডেলগুলির জন্য ওভারফিটিং হ্রাস প্রদর্শন করে।
মূল ফলাফল:
- ওয়ার্ডটুভেক একটি কার্যকর বিকল্প হিসেবে: ওয়ার্ডটুভেক-ভিত্তিক অগমেন্টেশন ওয়ার্ডনেটের সাথে তুলনীয়ভাবে কাজ করেছে, যা এটিকে একটি শক্তিশালী বিকল্প করে তোলে যখন একটি আনুষ্ঠানিক প্রতিশব্দ মডেল উপলব্ধ নয়।
- মিক্সআপের সার্বজনীন সুবিধা: মিক্সআপ প্রয়োগ করা ধারাবাহিকভাবে সমস্ত পাঠ্য-ভিত্তিক অগমেন্টেশন পদ্ধতির কার্যকারিতা উন্নত করেছে এবং প্রশিক্ষণ/যাচাইকরণ লস কার্ভের কাছাকাছি অবস্থানের মাধ্যমে প্রমাণিতভাবে ওভারফিটিং উল্লেখযোগ্যভাবে হ্রাস করেছে।
- অনুবাদের ব্যবহারিক বাধা: যদিও রাউন্ড-ট্রিপ ট্রান্সলেশন বিভিন্ন প্যারাফ্রেজ তৈরি করতে পারে, এর পেইড API পরিষেবার উপর নির্ভরতা এবং স্বল্প-সম্পদ ভাষার জন্য পরিবর্তনশীল গুণমান অনেক ব্যবহারের ক্ষেত্রে এটিকে কম প্রবেশযোগ্য ও ব্যবহারিক করে তোলে।
5. মূল অন্তর্দৃষ্টি ও আলোচনা
- ভাষাগত সম্পদবিহীন অনুশীলনকারীদের জন্য, ডেটা-চালিত এম্বেডিং মডেল (ওয়ার্ডটুভেক, ফাস্টটেক্সট) একটি শক্তিশালী ও প্রবেশযোগ্য অগমেন্টেশন সরঞ্জাম সরবরাহ করে।
- মিক্সআপ হল NLP-এর জন্য একটি অত্যন্ত কার্যকর, মডেল-নিরপেক্ষ নিয়মিতকারী যা ছোট ডেটাসেটের জন্য প্রশিক্ষণ পাইপলাইনে একটি আদর্শ উপাদান হিসেবে বিবেচনা করা উচিত।
- রাউন্ড-ট্রিপ ট্রান্সলেশনের খরচ-সুবিধা বিশ্লেষণ প্রায়শই সরল, বিনামূল্যের পদ্ধতির তুলনায় নেতিবাচক, বিশেষত বৃহৎ আকারে।
- গ্লোবাল অগমেন্টেশন একটি শক্ত ভিত্তি প্রদান করে এবং প্রসঙ্গ-সচেতন পদ্ধতির (যেমন, BERT ব্যবহার) তুলনায় গণনাগতভাবে সস্তা, কিন্তু সূক্ষ্মতার অভাব থাকতে পারে।
6. মূল বিশ্লেষণ: কেন্দ্রীয় অন্তর্দৃষ্টি, যৌক্তিক প্রবাহ, শক্তি ও দুর্বলতা, বাস্তবায়নযোগ্য অন্তর্দৃষ্টি
কেন্দ্রীয় অন্তর্দৃষ্টি: এই গবেষণাপত্রটি একটি গুরুত্বপূর্ণ, অনুশীলনকারী-কেন্দ্রিক বাস্তবতা পরীক্ষা প্রদান করে: ক্রমবর্ধমান বৃহৎ ভাষা মডেলের দৌড়ে, সরল, গ্লোবাল অগমেন্টেশন পদ্ধতি মিক্সআপের মতো চতুর নিয়মিতকরণের সাথে মিলিত হয়ে সংক্ষিপ্ত-পাঠ্য শ্রেণীবিভাজক উন্নত করার জন্য অবিশ্বাস্যভাবে শক্তিশালী ও খরচ-কার্যকর সরঞ্জাম হিসেবে রয়ে গেছে, বিশেষত ডেটা-স্বল্প পরিবেশে। লেখকগণ সঠিকভাবে চিহ্নিত করেছেন যে প্রবেশাধিকার ও খরচ শুধু সর্বোচ্চ কার্যকারিতা নয়, বরং প্রাথমিক সিদ্ধান্ত চালক।
যৌক্তিক প্রবাহ: যুক্তিটি মার্জিতভাবে সরল। সমস্যা দিয়ে শুরু করুন (NLP-এর জন্য সীমিত লেবেলযুক্ত ডেটা)। বিদ্যমান সমাধানগুলি (অগমেন্টেশন পদ্ধতি) জরিপ করুন, কিন্তু একটি নির্দিষ্ট, ব্যবহারিক উপসেট (গ্লোবাল পদ্ধতি) এর উপর দৃষ্টি নিবদ্ধ করুন। নিয়ন্ত্রিত, বৈচিত্র্যময় অবস্থার অধীনে (বিভিন্ন ডেটাসেট) সেগুলি পরীক্ষা করুন। একটি শক্তিশালী উন্নতকারী (মিক্সআপ) পরিচয় করিয়ে দিন। স্পষ্ট, প্রমাণ-ভিত্তিক নির্দেশনা দিয়ে উপসংহার টানুন। প্রেরণা থেকে পদ্ধতি, পরীক্ষা থেকে ব্যবহারিক সুপারিশের প্রবাহ নিরবচ্ছিন্ন ও বিশ্বাসযোগ্য।
শক্তি ও দুর্বলতা: গবেষণাপত্রের প্রধান শক্তি হল এর ব্যবহারিকতা। ওয়ার্ডটুভেককে ঐতিহ্যগত ওয়ার্ডনেট বেঞ্চমার্কের বিরুদ্ধে তুলনা করে, এটি দলগুলির জন্য তাৎক্ষণিকভাবে উপযোগী একটি হিউরিস্টিক প্রদান করে। রাউন্ড-ট্রিপ ট্রান্সলেশনের খরচ বাধা তুলে ধরা একটি গুরুত্বপূর্ণ অবদান যা বিশুদ্ধ-গবেষণা পত্রে প্রায়শই উপেক্ষা করা হয়। যাইহোক, বিশ্লেষণের একটি উল্লেখযোগ্য দুর্বলতা রয়েছে: এর পরিধি "গ্লোবাল" পদ্ধতিতে সীমাবদ্ধ। যদিও এটি ন্যায়সঙ্গত, এটি কক্ষে উপস্থিত হাতিকে এড়িয়ে যায়—BERT বা T5-এর মতো মডেল ব্যবহার করে প্রসঙ্গগত অগমেন্টেশন। একটি তুলনা যা দেখায় যে কোথায় সরল গ্লোবাল পদ্ধতি যথেষ্ট এবং কোথায় প্রসঙ্গগত পদ্ধতিতে বিনিয়োগ মূল্য দেয়, সেটিই হত চূড়ান্ত অন্তর্দৃষ্টি। জার্নাল অফ মেশিন লার্নিং রিসার্চ প্রায়শই জোর দিয়ে বলে, জটিলতা ও কার্যকারতার মধ্যে বিনিময় বক্ররেখা বোঝা ফলিত ML-এর চাবিকাঠি।
বাস্তবায়নযোগ্য অন্তর্দৃষ্টি: আজকে পাঠ্য শ্রেণীবিভাজক তৈরি করা যেকোনো দলের জন্য, এখানে আপনার খেলার বই রয়েছে: ১) ওয়ার্ডটুভেক/ফাস্টটেক্সট অগমেন্টেশন ডিফল্ট করুন। একটি ডোমেন-নির্দিষ্ট এম্বেডিং মডেল প্রশিক্ষণ দিন বা ডাউনলোড করুন। এটি আপনার সেরা মূল্য-জন্য-টাকা। ২) সর্বদা মিক্সআপ প্রয়োগ করুন। এটি আপনার এম্বেডিং স্পেসে বাস্তবায়ন করুন। এটি কম-খরচের নিয়মিতকরণের জাদু। ৩) বৃহৎ আকারের জন্য রাউন্ড-ট্রিপ ট্রান্সলেশন ভুলে যান। যদি না আপনার প্যারাফ্রেজিং-এর জন্য একটি নির্দিষ্ট প্রয়োজন এবং একটি উদার API বাজেট থাকে, এটি সমাধান নয়। ৪) জটিল হওয়ার আগে বেঞ্চমার্ক করুন। ডেটা অগমেন্টেশনের জন্য একটি ১০-বিলিয়ন-প্যারামিটার মডেল মোতায়েন করার আগে, প্রমাণ করুন যে এই সরল পদ্ধতিগুলি ইতিমধ্যেই আপনার সমস্যার ৮০% সমাধান করে না। এই গবেষণাপত্রটি, সাইকেলজিএএন-এর মৌলিক কাজের মতোই যা দেখিয়েছিল যে সরল চক্র-সঙ্গতি অযুগ্ম চিত্র অনুবাদ সক্ষম করতে পারে, আমাদের মনে করিয়ে দেয় যে মার্জিত, সরল ধারণাগুলি প্রায়শই কঠোর বলকে ছাড়িয়ে যায়।
7. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন
মূল অগমেন্টেশন অপারেশনে একটি বাক্য $S$-এ একটি শব্দ $w$-কে একটি শব্দার্থিকভাবে সদৃশ শব্দ $w'$ দ্বারা প্রতিস্থাপন করা জড়িত। ওয়ার্ডটুভেক-এর জন্য, এটি $w$-এর ভেক্টর $\mathbf{v}_w$-এর নিকটতম প্রতিবেশীকে এম্বেডিং স্পেস $E$-এ খুঁজে বের করে করা হয়:
$w' = \arg\max_{w_i \in V} \, \text{cosine-similarity}(\mathbf{v}_w, \mathbf{v}_{w_i})$
যেখানে $V$ হল শব্দভাণ্ডার। নির্বাচনের জন্য একটি সম্ভাব্যতা থ্রেশহোল্ড বা টপ-কে স্যাম্পলিং ব্যবহার করা হয়।
একটি ব্যাচের জন্য মিক্সআপ সূত্রায়ন গুরুত্বপূর্ণ:
$\mathcal{L}_{mixup} = \frac{1}{N} \sum_{i=1}^{N} \left[ \lambda_i \cdot \mathcal{L}(f(\mathbf{z}_{mix,i}), \mathbf{y}_{mix,i}) \right]$
যেখানে $f$ হল শ্রেণীবিভাজক, এবং $\mathcal{L}$ হল লস ফাংশন (যেমন, ক্রস-এনট্রপি)। এটি মডেলকে প্রশিক্ষণ উদাহরণগুলির মধ্যে রৈখিকভাবে আচরণ করতে উৎসাহিত করে।
8. বিশ্লেষণ কাঠামো: উদাহরণ কেস স্টাডি
পরিস্থিতি: একটি স্টার্টআপ গ্রাহক সহায়তা টুইটগুলি (সংক্ষিপ্ত পাঠ্য) "জরুরি" এবং "অ-জরুরি" বিভাগে শ্রেণীবিভাজন করতে চায় কিন্তু তাদের কাছে মাত্র ২,০০০ লেবেলযুক্ত উদাহরণ রয়েছে।
কাঠামো প্রয়োগ:
- বেসলাইন: ২,০০০ নমুনার উপর একটি সরল সিএনএন বা ডিস্টিলবার্ট মডেল প্রশিক্ষণ দিন। নির্ভুলতা/এফ১-স্কোর রেকর্ড করুন এবং ওভারফিটিং-এর জন্য যাচাইকরণ লস পর্যবেক্ষণ করুন।
- অগমেন্টেশন:
- ধাপ ক: সাধারণ টুইটার ডেটার একটি বৃহৎ কর্পাসের উপর একটি ওয়ার্ডটুভেক মডেল প্রশিক্ষণ দিন।
- ধাপ খ: প্রতিটি প্রশিক্ষণ বাক্যের জন্য, এলোমেলোভাবে ২০% নন-স্টপ শব্দ নির্বাচন করুন এবং প্রতিটিকে সম্ভাব্যতা p=0.7 সহ তার টপ-৩ ওয়ার্ডটুভেক প্রতিবেশীদের একটি দ্বারা প্রতিস্থাপন করুন। এটি একটি অগমেন্টেড ডেটাসেট তৈরি করে।
- নিয়মিতকরণ: মূল+অগমেন্টেড ডেটার সম্মিলিত সেটে শ্রেণীবিভাজকের প্রশিক্ষণের সময় বাক্য এম্বেডিং স্তরে মিক্সআপ ($\alpha=0.2$) প্রয়োগ করুন।
- মূল্যায়ন: একটি সংরক্ষিত টেস্ট সেটে বেসলাইন মডেল বনাম অগমেন্টেড+মিক্সআপ মডেলের কার্যকারিতা (নির্ভুলতা, প্রতিপক্ষ প্রতিশব্দের প্রতি দৃঢ়তা) তুলনা করুন।
প্রত্যাশিত ফলাফল: গবেষণাপত্রের ফলাফলে প্রদর্শিত হিসাবে, অগমেন্টেড+মিক্সআপ মডেলটির এফ১-স্কোরে ৩-৮% উন্নতি এবং প্রশিক্ষণ ও যাচাইকরণ লসের মধ্যে উল্লেখযোগ্যভাবে ছোট ব্যবধান দেখানো উচিত, যা উন্নত সাধারণীকরণ নির্দেশ করে।
9. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশনা
- প্রাক-প্রশিক্ষিত ভাষা মডেল (PLM)-এর সাথে একীকরণ: গ্লোবাল অগমেন্টেশন পদ্ধতি কীভাবে GPT-3/4 বা T5 ব্যবহার করে অগমেন্টেশনের সাথে পরিপূরক বা প্রতিযোগিতা করে? গবেষণা হাইব্রিড পাইপলাইন তৈরি করার উপর দৃষ্টি নিবদ্ধ করতে পারে।
- স্বল্প-সম্পদ ও বহুভাষিক সেটিংস: এই কাজটিকে সত্যিকার স্বল্প-সম্পদ ভাষায় সম্প্রসারণ করা যেখানে ওয়ার্ডটুভেক মডেলও দুর্লভ। ক্রস-লিঙ্গুয়াল এম্বেডিং ম্যাপিং-এর মতো কৌশল অন্বেষণ করা যেতে পারে।
- ডোমেন-নির্দিষ্ট এম্বেডিংস: ওয়ার্ডটুভেক অগমেন্টেশনের কার্যকারিতা এম্বেডিং গুণমানের উপর নির্ভর করে। ভবিষ্যতের কাজে অগমেন্টেশনের জন্য ডোমেন-নির্দিষ্ট এম্বেডিং (যেমন, বায়োমেডিকেল, আইনি) তৈরি ও ব্যবহারের উপর জোর দেওয়া উচিত।
- স্বয়ংক্রিয় অগমেন্টেশন নীতি শেখা: ভিশনে অটোঅগমেন্ট দ্বারা অনুপ্রাণিত হয়ে, একটি প্রদত্ত ডেটাসেটের জন্য এই গ্লোবাল অগমেন্টেশন কৌশলগুলির সর্বোত্তম সংমিশ্রণ ও প্যারামিটার স্বয়ংক্রিয়ভাবে আবিষ্কার করার জন্য রিইনফোর্সমেন্ট লার্নিং বা সার্চ-ভিত্তিক পদ্ধতি বিকাশ করা।
- শ্রেণীবিভাজনের বাইরে: এই গ্লোবাল অগমেন্টেশন+মিক্সআপ প্যারাডাইমটিকে নামযুক্ত সত্তা স্বীকৃতি (NER) বা প্রশ্নোত্তরের মতো অন্যান্য NLP কাজে প্রয়োগ করা, যেখানে লেবেল স্পেস ভিন্নভাবে কাঠামোবদ্ধ।
10. তথ্যসূত্র
- মারিভাতে, ভি., এবং সেফারা, টি. (২০২০)। সংক্ষিপ্ত পাঠ্য শ্রেণীবিভাজনে গ্লোবাল অগমেন্টেশন পদ্ধতির মাধ্যমে উন্নতি সাধন। arXiv প্রিপ্রিন্ট arXiv:1907.03752v2।
- মিকোলভ, টি., এবং অন্যান্য। (২০১৩)। ভেক্টর স্পেসে শব্দ উপস্থাপনার দক্ষ অনুমান। arXiv:1301.3781।
- মিলার, জি. এ. (১৯৯৫)। ওয়ার্ডনেট: ইংরেজির জন্য একটি শব্দভাণ্ডার ডেটাবেস। কমিউনিকেশনস অফ দ্য ACM, ৩৮(১১), ৩৯-৪১।
- শর্টেন, সি., এবং খোশগফতার, টি. এম. (২০১৯)। গভীর শেখার জন্য চিত্র ডেটা অগমেন্টেশন উপর একটি জরিপ। জার্নাল অফ বিগ ডেটা, ৬(১), ৬০।
- ঝাং, এইচ., এবং অন্যান্য। (২০১৮)। মিক্সআপ: অভিজ্ঞতামূলক ঝুঁকি হ্রাসের বাইরে। ইন্টারন্যাশনাল কনফারেন্স অন লার্নিং রিপ্রেজেন্টেশনস (ICLR)।
- ডেভলিন, জে., এবং অন্যান্য। (২০১৯)। BERT: ভাষা বোঝার জন্য গভীর দ্বি-দিকনির্দেশক ট্রান্সফরমারের প্রাক-প্রশিক্ষণ। প্রসিডিংস অফ NAACL-HLT।
- ঝু, জে.ওয়াই., এবং অন্যান্য। (২০১৭)। চক্র-সঙ্গতিপূর্ণ প্রতিপক্ষ নেটওয়ার্ক ব্যবহার করে অযুগ্ম চিত্র-থেকে-চিত্র অনুবাদ। প্রসিডিংস অফ দ্য IEEE ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন (ICCV)। (সাইকেলজিএএন তথ্যসূত্র)