সংক্ষিপ্ত পাঠ্য শ্রেণীবিভাজনে গ্লোবাল অগমেন্টেশন পদ্ধতির মাধ্যমে উন্নতি সাধন

সূচিপত্র

1. ভূমিকা

এই গবেষণাপত্রটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP)-এর জন্য ডেটা অগমেন্টেশন কৌশল, বিশেষভাবে সংক্ষিপ্ত পাঠ্য শ্রেণীবিভাজনের লক্ষ্যে, অনুসন্ধান করে। কম্পিউটার ভিশনে অগমেন্টেশনের সাফল্য দ্বারা অনুপ্রাণিত হয়ে, লেখকগণ NLP কাজের জন্য কার্যকর অগমেন্টেশন কৌশল সম্পর্কে অনুশীলনকারীদের একটি স্পষ্ট ধারণা প্রদান করতে চান, যেখানে লেবেলযুক্ত ডেটা সীমিত। সমাধান করা মূল চ্যালেঞ্জ হল বিশাল লেবেলযুক্ত ডেটাসেটের প্রয়োজন ছাড়াই মডেলের কার্যকারিতা ও দৃঢ়তা উন্নত করা, যা ভুয়া খবর শনাক্তকরণ, অনুভূতি বিশ্লেষণ এবং সামাজিক যোগাযোগ মাধ্যম পর্যবেক্ষণের মতো বাস্তব-বিশ্বের অ্যাপ্লিকেশনে একটি সাধারণ সীমাবদ্ধতা।

2. গ্লোবাল অগমেন্টেশন পদ্ধতি

গবেষণাপত্রটি গ্লোবাল অগমেন্টেশন পদ্ধতি-এর উপর দৃষ্টি নিবদ্ধ করে, যা শব্দগুলিকে প্রসঙ্গ-নির্দিষ্ট উপযুক্ততার পরিবর্তে একটি কর্পাস জুড়ে তাদের সাধারণ শব্দার্থিক সাদৃশ্যের ভিত্তিতে প্রতিস্থাপন করে। এই পদ্ধতিকে আরও জটিল, প্রসঙ্গ-সচেতন পদ্ধতির সাথে বৈপরীত্য দেখানো হয়েছে।

2.1 ওয়ার্ডনেট-ভিত্তিক অগমেন্টেশন

এই পদ্ধতিটি একটি পাঠ্যের শব্দগুলির প্রতিশব্দ খুঁজে পেতে ওয়ার্ডনেট শব্দভাণ্ডার ডেটাবেস ব্যবহার করে। এটি একটি শব্দকে ওয়ার্ডনেট থেকে তার একটি প্রতিশব্দ দ্বারা প্রতিস্থাপন করে, শব্দভাণ্ডারগত বৈচিত্র্য নিয়ে আসে। এর শক্তি এর ভাষাগত ভিত্তিতে নিহিত, কিন্তু এটি আধুনিক বা ডোমেন-নির্দিষ্ট ভাষাকে ভালোভাবে ধারণ নাও করতে পারে।

2.2 ওয়ার্ডটুভেক-ভিত্তিক অগমেন্টেশন

এই কৌশলটি ওয়ার্ডটুভেক বা অনুরূপ শব্দ এম্বেডিং মডেল (যেমন গ্লোভ) ব্যবহার করে। এটি একটি শব্দকে অন্য একটি শব্দ দ্বারা প্রতিস্থাপন করে যা এম্বেডিং ভেক্টর স্পেসে তার কাছাকাছি অবস্থান করে (যেমন, কোসাইন সাদৃশ্যের ভিত্তিতে)। এটি একটি ডেটা-চালিত পদ্ধতি যা বৃহৎ কর্পাস থেকে শেখা শব্দার্থিক সম্পর্ক ধারণ করতে পারে।

2.3 রাউন্ড-ট্রিপ ট্রান্সলেশন

এই পদ্ধতিটি একটি বাক্যকে একটি মধ্যবর্তী ভাষায় (যেমন, ফরাসি) অনুবাদ করে এবং তারপর মেশিন অনুবাদ পরিষেবা (যেমন, গুগল ট্রান্সলেট) ব্যবহার করে মূল ভাষায় (যেমন, ইংরেজি) ফিরিয়ে আনে। এই প্রক্রিয়াটি প্রায়শই প্যারাফ্রেজিং এবং বাক্য গঠনগত বৈচিত্র্য নিয়ে আসে। লেখকগণ উল্লেখযোগ্য ব্যবহারিক সীমাবদ্ধতার কথা উল্লেখ করেছেন: খরচ এবং প্রবেশাধিকার, বিশেষ করে স্বল্প-সম্পদ ভাষার জন্য।

3. NLP-এর জন্য মিক্সআপ

গবেষণাপত্রটি কম্পিউটার ভিশন [34] থেকে উদ্ভূত মিক্সআপ নিয়মিতকরণ কৌশলটিকে NLP-এ প্রয়োগ করার বিষয়টি অন্বেষণ করে। মিক্সআপ জোড়া ইনপুট নমুনা এবং তাদের সংশ্লিষ্ট লেবেলগুলির মধ্যে রৈখিকভাবে অন্তঃক্ষেপণ করে ভার্চুয়াল প্রশিক্ষণ উদাহরণ তৈরি করে। পাঠ্যের জন্য, এটি এম্বেডিং স্পেসে প্রয়োগ করা হয়। দুটি বাক্য এম্বেডিং $\mathbf{z}_i$ এবং $\mathbf{z}_j$, এবং তাদের ওয়ান-হট লেবেল ভেক্টর $\mathbf{y}_i$ এবং $\mathbf{y}_j$ দেওয়া থাকলে, একটি নতুন নমুনা নিম্নরূপ তৈরি করা হয়:

$\mathbf{z}_{new} = \lambda \mathbf{z}_i + (1 - \lambda) \mathbf{z}_j$

$\mathbf{y}_{new} = \lambda \mathbf{y}_i + (1 - \lambda) \mathbf{y}_j$

যেখানে $\lambda \sim \text{Beta}(\alpha, \alpha)$ এবং $\alpha \in (0, \infty)$। এটি মসৃণ সিদ্ধান্ত সীমানাকে উৎসাহিত করে এবং ওভারফিটিং হ্রাস করে।

4. পরীক্ষামূলক সেটআপ ও ফলাফল

4.1 ডেটাসেটসমূহ

বিভিন্ন পাঠ্য শৈলী কভার করতে তিনটি ডেটাসেটে পরীক্ষা চালানো হয়েছিল:

সামাজিক যোগাযোগ মাধ্যমের পাঠ্য: সংক্ষিপ্ত, অনানুষ্ঠানিক ব্যবহারকারী-উৎপাদিত কন্টেন্ট।
খবরের শিরোনাম: সংক্ষিপ্ত, আনুষ্ঠানিক পাঠ্য।
আনুষ্ঠানিক খবরের নিবন্ধ: দীর্ঘ, কাঠামোবদ্ধ পাঠ্য।

একটি গভীর শেখার মডেল (সম্ভবত একটি সিএনএন বা আরএনএন-ভিত্তিক শ্রেণীবিভাজক) বেসলাইন হিসেবে ব্যবহার করা হয়েছিল।

4.2 ফলাফল ও বিশ্লেষণ

চার্ট বর্ণনা (পাঠ্যের উপর ভিত্তি করে কল্পনা করা): একটি বার চার্ট যা বেসলাইন মডেলের শ্রেণীবিভাজন নির্ভুলতা (এফ১-স্কোর) ওয়ার্ডনেট, ওয়ার্ডটুভেক এবং রাউন্ড-ট্রিপ ট্রান্সলেশনের মাধ্যমে অগমেন্টেড ডেটা দিয়ে প্রশিক্ষিত মডেলগুলির সাথে তুলনা করে, উভয় ক্ষেত্রেই মিক্সআপ সহ ও ছাড়া। একটি লাইন গ্রাফ ওভারলে যাচাইকরণ লস কার্ভ দেখায়, যা মিক্সআপ ব্যবহারকারী মডেলগুলির জন্য ওভারফিটিং হ্রাস প্রদর্শন করে।

মূল ফলাফল:

ওয়ার্ডটুভেক একটি কার্যকর বিকল্প হিসেবে: ওয়ার্ডটুভেক-ভিত্তিক অগমেন্টেশন ওয়ার্ডনেটের সাথে তুলনীয়ভাবে কাজ করেছে, যা এটিকে একটি শক্তিশালী বিকল্প করে তোলে যখন একটি আনুষ্ঠানিক প্রতিশব্দ মডেল উপলব্ধ নয়।
মিক্সআপের সার্বজনীন সুবিধা: মিক্সআপ প্রয়োগ করা ধারাবাহিকভাবে সমস্ত পাঠ্য-ভিত্তিক অগমেন্টেশন পদ্ধতির কার্যকারিতা উন্নত করেছে এবং প্রশিক্ষণ/যাচাইকরণ লস কার্ভের কাছাকাছি অবস্থানের মাধ্যমে প্রমাণিতভাবে ওভারফিটিং উল্লেখযোগ্যভাবে হ্রাস করেছে।
অনুবাদের ব্যবহারিক বাধা: যদিও রাউন্ড-ট্রিপ ট্রান্সলেশন বিভিন্ন প্যারাফ্রেজ তৈরি করতে পারে, এর পেইড API পরিষেবার উপর নির্ভরতা এবং স্বল্প-সম্পদ ভাষার জন্য পরিবর্তনশীল গুণমান অনেক ব্যবহারের ক্ষেত্রে এটিকে কম প্রবেশযোগ্য ও ব্যবহারিক করে তোলে।

5. মূল অন্তর্দৃষ্টি ও আলোচনা

ভাষাগত সম্পদবিহীন অনুশীলনকারীদের জন্য, ডেটা-চালিত এম্বেডিং মডেল (ওয়ার্ডটুভেক, ফাস্টটেক্সট) একটি শক্তিশালী ও প্রবেশযোগ্য অগমেন্টেশন সরঞ্জাম সরবরাহ করে।
মিক্সআপ হল NLP-এর জন্য একটি অত্যন্ত কার্যকর, মডেল-নিরপেক্ষ নিয়মিতকারী যা ছোট ডেটাসেটের জন্য প্রশিক্ষণ পাইপলাইনে একটি আদর্শ উপাদান হিসেবে বিবেচনা করা উচিত।
রাউন্ড-ট্রিপ ট্রান্সলেশনের খরচ-সুবিধা বিশ্লেষণ প্রায়শই সরল, বিনামূল্যের পদ্ধতির তুলনায় নেতিবাচক, বিশেষত বৃহৎ আকারে।
গ্লোবাল অগমেন্টেশন একটি শক্ত ভিত্তি প্রদান করে এবং প্রসঙ্গ-সচেতন পদ্ধতির (যেমন, BERT ব্যবহার) তুলনায় গণনাগতভাবে সস্তা, কিন্তু সূক্ষ্মতার অভাব থাকতে পারে।

6. মূল বিশ্লেষণ: কেন্দ্রীয় অন্তর্দৃষ্টি, যৌক্তিক প্রবাহ, শক্তি ও দুর্বলতা, বাস্তবায়নযোগ্য অন্তর্দৃষ্টি

কেন্দ্রীয় অন্তর্দৃষ্টি: এই গবেষণাপত্রটি একটি গুরুত্বপূর্ণ, অনুশীলনকারী-কেন্দ্রিক বাস্তবতা পরীক্ষা প্রদান করে: ক্রমবর্ধমান বৃহৎ ভাষা মডেলের দৌড়ে, সরল, গ্লোবাল অগমেন্টেশন পদ্ধতি মিক্সআপের মতো চতুর নিয়মিতকরণের সাথে মিলিত হয়ে সংক্ষিপ্ত-পাঠ্য শ্রেণীবিভাজক উন্নত করার জন্য অবিশ্বাস্যভাবে শক্তিশালী ও খরচ-কার্যকর সরঞ্জাম হিসেবে রয়ে গেছে, বিশেষত ডেটা-স্বল্প পরিবেশে। লেখকগণ সঠিকভাবে চিহ্নিত করেছেন যে প্রবেশাধিকার ও খরচ শুধু সর্বোচ্চ কার্যকারিতা নয়, বরং প্রাথমিক সিদ্ধান্ত চালক।

যৌক্তিক প্রবাহ: যুক্তিটি মার্জিতভাবে সরল। সমস্যা দিয়ে শুরু করুন (NLP-এর জন্য সীমিত লেবেলযুক্ত ডেটা)। বিদ্যমান সমাধানগুলি (অগমেন্টেশন পদ্ধতি) জরিপ করুন, কিন্তু একটি নির্দিষ্ট, ব্যবহারিক উপসেট (গ্লোবাল পদ্ধতি) এর উপর দৃষ্টি নিবদ্ধ করুন। নিয়ন্ত্রিত, বৈচিত্র্যময় অবস্থার অধীনে (বিভিন্ন ডেটাসেট) সেগুলি পরীক্ষা করুন। একটি শক্তিশালী উন্নতকারী (মিক্সআপ) পরিচয় করিয়ে দিন। স্পষ্ট, প্রমাণ-ভিত্তিক নির্দেশনা দিয়ে উপসংহার টানুন। প্রেরণা থেকে পদ্ধতি, পরীক্ষা থেকে ব্যবহারিক সুপারিশের প্রবাহ নিরবচ্ছিন্ন ও বিশ্বাসযোগ্য।

শক্তি ও দুর্বলতা: গবেষণাপত্রের প্রধান শক্তি হল এর ব্যবহারিকতা। ওয়ার্ডটুভেককে ঐতিহ্যগত ওয়ার্ডনেট বেঞ্চমার্কের বিরুদ্ধে তুলনা করে, এটি দলগুলির জন্য তাৎক্ষণিকভাবে উপযোগী একটি হিউরিস্টিক প্রদান করে। রাউন্ড-ট্রিপ ট্রান্সলেশনের খরচ বাধা তুলে ধরা একটি গুরুত্বপূর্ণ অবদান যা বিশুদ্ধ-গবেষণা পত্রে প্রায়শই উপেক্ষা করা হয়। যাইহোক, বিশ্লেষণের একটি উল্লেখযোগ্য দুর্বলতা রয়েছে: এর পরিধি "গ্লোবাল" পদ্ধতিতে সীমাবদ্ধ। যদিও এটি ন্যায়সঙ্গত, এটি কক্ষে উপস্থিত হাতিকে এড়িয়ে যায়—BERT বা T5-এর মতো মডেল ব্যবহার করে প্রসঙ্গগত অগমেন্টেশন। একটি তুলনা যা দেখায় যে কোথায় সরল গ্লোবাল পদ্ধতি যথেষ্ট এবং কোথায় প্রসঙ্গগত পদ্ধতিতে বিনিয়োগ মূল্য দেয়, সেটিই হত চূড়ান্ত অন্তর্দৃষ্টি। জার্নাল অফ মেশিন লার্নিং রিসার্চ প্রায়শই জোর দিয়ে বলে, জটিলতা ও কার্যকারতার মধ্যে বিনিময় বক্ররেখা বোঝা ফলিত ML-এর চাবিকাঠি।

বাস্তবায়নযোগ্য অন্তর্দৃষ্টি: আজকে পাঠ্য শ্রেণীবিভাজক তৈরি করা যেকোনো দলের জন্য, এখানে আপনার খেলার বই রয়েছে: ১) ওয়ার্ডটুভেক/ফাস্টটেক্সট অগমেন্টেশন ডিফল্ট করুন। একটি ডোমেন-নির্দিষ্ট এম্বেডিং মডেল প্রশিক্ষণ দিন বা ডাউনলোড করুন। এটি আপনার সেরা মূল্য-জন্য-টাকা। ২) সর্বদা মিক্সআপ প্রয়োগ করুন। এটি আপনার এম্বেডিং স্পেসে বাস্তবায়ন করুন। এটি কম-খরচের নিয়মিতকরণের জাদু। ৩) বৃহৎ আকারের জন্য রাউন্ড-ট্রিপ ট্রান্সলেশন ভুলে যান। যদি না আপনার প্যারাফ্রেজিং-এর জন্য একটি নির্দিষ্ট প্রয়োজন এবং একটি উদার API বাজেট থাকে, এটি সমাধান নয়। ৪) জটিল হওয়ার আগে বেঞ্চমার্ক করুন। ডেটা অগমেন্টেশনের জন্য একটি ১০-বিলিয়ন-প্যারামিটার মডেল মোতায়েন করার আগে, প্রমাণ করুন যে এই সরল পদ্ধতিগুলি ইতিমধ্যেই আপনার সমস্যার ৮০% সমাধান করে না। এই গবেষণাপত্রটি, সাইকেলজিএএন-এর মৌলিক কাজের মতোই যা দেখিয়েছিল যে সরল চক্র-সঙ্গতি অযুগ্ম চিত্র অনুবাদ সক্ষম করতে পারে, আমাদের মনে করিয়ে দেয় যে মার্জিত, সরল ধারণাগুলি প্রায়শই কঠোর বলকে ছাড়িয়ে যায়।

7. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন

মূল অগমেন্টেশন অপারেশনে একটি বাক্য $S$-এ একটি শব্দ $w$-কে একটি শব্দার্থিকভাবে সদৃশ শব্দ $w'$ দ্বারা প্রতিস্থাপন করা জড়িত। ওয়ার্ডটুভেক-এর জন্য, এটি $w$-এর ভেক্টর $\mathbf{v}_w$-এর নিকটতম প্রতিবেশীকে এম্বেডিং স্পেস $E$-এ খুঁজে বের করে করা হয়:

$w' = \arg\max_{w_i \in V} \, \text{cosine-similarity}(\mathbf{v}_w, \mathbf{v}_{w_i})$

যেখানে $V$ হল শব্দভাণ্ডার। নির্বাচনের জন্য একটি সম্ভাব্যতা থ্রেশহোল্ড বা টপ-কে স্যাম্পলিং ব্যবহার করা হয়।

একটি ব্যাচের জন্য মিক্সআপ সূত্রায়ন গুরুত্বপূর্ণ:

$\mathcal{L}_{mixup} = \frac{1}{N} \sum_{i=1}^{N} \left[ \lambda_i \cdot \mathcal{L}(f(\mathbf{z}_{mix,i}), \mathbf{y}_{mix,i}) \right]$

যেখানে $f$ হল শ্রেণীবিভাজক, এবং $\mathcal{L}$ হল লস ফাংশন (যেমন, ক্রস-এনট্রপি)। এটি মডেলকে প্রশিক্ষণ উদাহরণগুলির মধ্যে রৈখিকভাবে আচরণ করতে উৎসাহিত করে।

8. বিশ্লেষণ কাঠামো: উদাহরণ কেস স্টাডি

পরিস্থিতি: একটি স্টার্টআপ গ্রাহক সহায়তা টুইটগুলি (সংক্ষিপ্ত পাঠ্য) "জরুরি" এবং "অ-জরুরি" বিভাগে শ্রেণীবিভাজন করতে চায় কিন্তু তাদের কাছে মাত্র ২,০০০ লেবেলযুক্ত উদাহরণ রয়েছে।

কাঠামো প্রয়োগ:

বেসলাইন: ২,০০০ নমুনার উপর একটি সরল সিএনএন বা ডিস্টিলবার্ট মডেল প্রশিক্ষণ দিন। নির্ভুলতা/এফ১-স্কোর রেকর্ড করুন এবং ওভারফিটিং-এর জন্য যাচাইকরণ লস পর্যবেক্ষণ করুন।
অগমেন্টেশন:
- ধাপ ক: সাধারণ টুইটার ডেটার একটি বৃহৎ কর্পাসের উপর একটি ওয়ার্ডটুভেক মডেল প্রশিক্ষণ দিন।
- ধাপ খ: প্রতিটি প্রশিক্ষণ বাক্যের জন্য, এলোমেলোভাবে ২০% নন-স্টপ শব্দ নির্বাচন করুন এবং প্রতিটিকে সম্ভাব্যতা p=0.7 সহ তার টপ-৩ ওয়ার্ডটুভেক প্রতিবেশীদের একটি দ্বারা প্রতিস্থাপন করুন। এটি একটি অগমেন্টেড ডেটাসেট তৈরি করে।
নিয়মিতকরণ: মূল+অগমেন্টেড ডেটার সম্মিলিত সেটে শ্রেণীবিভাজকের প্রশিক্ষণের সময় বাক্য এম্বেডিং স্তরে মিক্সআপ ($\alpha=0.2$) প্রয়োগ করুন।
মূল্যায়ন: একটি সংরক্ষিত টেস্ট সেটে বেসলাইন মডেল বনাম অগমেন্টেড+মিক্সআপ মডেলের কার্যকারিতা (নির্ভুলতা, প্রতিপক্ষ প্রতিশব্দের প্রতি দৃঢ়তা) তুলনা করুন।

প্রত্যাশিত ফলাফল: গবেষণাপত্রের ফলাফলে প্রদর্শিত হিসাবে, অগমেন্টেড+মিক্সআপ মডেলটির এফ১-স্কোরে ৩-৮% উন্নতি এবং প্রশিক্ষণ ও যাচাইকরণ লসের মধ্যে উল্লেখযোগ্যভাবে ছোট ব্যবধান দেখানো উচিত, যা উন্নত সাধারণীকরণ নির্দেশ করে।

9. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশনা

প্রাক-প্রশিক্ষিত ভাষা মডেল (PLM)-এর সাথে একীকরণ: গ্লোবাল অগমেন্টেশন পদ্ধতি কীভাবে GPT-3/4 বা T5 ব্যবহার করে অগমেন্টেশনের সাথে পরিপূরক বা প্রতিযোগিতা করে? গবেষণা হাইব্রিড পাইপলাইন তৈরি করার উপর দৃষ্টি নিবদ্ধ করতে পারে।
স্বল্প-সম্পদ ও বহুভাষিক সেটিংস: এই কাজটিকে সত্যিকার স্বল্প-সম্পদ ভাষায় সম্প্রসারণ করা যেখানে ওয়ার্ডটুভেক মডেলও দুর্লভ। ক্রস-লিঙ্গুয়াল এম্বেডিং ম্যাপিং-এর মতো কৌশল অন্বেষণ করা যেতে পারে।
ডোমেন-নির্দিষ্ট এম্বেডিংস: ওয়ার্ডটুভেক অগমেন্টেশনের কার্যকারিতা এম্বেডিং গুণমানের উপর নির্ভর করে। ভবিষ্যতের কাজে অগমেন্টেশনের জন্য ডোমেন-নির্দিষ্ট এম্বেডিং (যেমন, বায়োমেডিকেল, আইনি) তৈরি ও ব্যবহারের উপর জোর দেওয়া উচিত।
স্বয়ংক্রিয় অগমেন্টেশন নীতি শেখা: ভিশনে অটোঅগমেন্ট দ্বারা অনুপ্রাণিত হয়ে, একটি প্রদত্ত ডেটাসেটের জন্য এই গ্লোবাল অগমেন্টেশন কৌশলগুলির সর্বোত্তম সংমিশ্রণ ও প্যারামিটার স্বয়ংক্রিয়ভাবে আবিষ্কার করার জন্য রিইনফোর্সমেন্ট লার্নিং বা সার্চ-ভিত্তিক পদ্ধতি বিকাশ করা।
শ্রেণীবিভাজনের বাইরে: এই গ্লোবাল অগমেন্টেশন+মিক্সআপ প্যারাডাইমটিকে নামযুক্ত সত্তা স্বীকৃতি (NER) বা প্রশ্নোত্তরের মতো অন্যান্য NLP কাজে প্রয়োগ করা, যেখানে লেবেল স্পেস ভিন্নভাবে কাঠামোবদ্ধ।

10. তথ্যসূত্র

মারিভাতে, ভি., এবং সেফারা, টি. (২০২০)। সংক্ষিপ্ত পাঠ্য শ্রেণীবিভাজনে গ্লোবাল অগমেন্টেশন পদ্ধতির মাধ্যমে উন্নতি সাধন। arXiv প্রিপ্রিন্ট arXiv:1907.03752v2।
মিকোলভ, টি., এবং অন্যান্য। (২০১৩)। ভেক্টর স্পেসে শব্দ উপস্থাপনার দক্ষ অনুমান। arXiv:1301.3781।
মিলার, জি. এ. (১৯৯৫)। ওয়ার্ডনেট: ইংরেজির জন্য একটি শব্দভাণ্ডার ডেটাবেস। কমিউনিকেশনস অফ দ্য ACM, ৩৮(১১), ৩৯-৪১।
শর্টেন, সি., এবং খোশগফতার, টি. এম. (২০১৯)। গভীর শেখার জন্য চিত্র ডেটা অগমেন্টেশন উপর একটি জরিপ। জার্নাল অফ বিগ ডেটা, ৬(১), ৬০।
ঝাং, এইচ., এবং অন্যান্য। (২০১৮)। মিক্সআপ: অভিজ্ঞতামূলক ঝুঁকি হ্রাসের বাইরে। ইন্টারন্যাশনাল কনফারেন্স অন লার্নিং রিপ্রেজেন্টেশনস (ICLR)।
ডেভলিন, জে., এবং অন্যান্য। (২০১৯)। BERT: ভাষা বোঝার জন্য গভীর দ্বি-দিকনির্দেশক ট্রান্সফরমারের প্রাক-প্রশিক্ষণ। প্রসিডিংস অফ NAACL-HLT।
ঝু, জে.ওয়াই., এবং অন্যান্য। (২০১৭)। চক্র-সঙ্গতিপূর্ণ প্রতিপক্ষ নেটওয়ার্ক ব্যবহার করে অযুগ্ম চিত্র-থেকে-চিত্র অনুবাদ। প্রসিডিংস অফ দ্য IEEE ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন (ICCV)। (সাইকেলজিএএন তথ্যসূত্র)