EuroTermBank টুলকিট: ফেডারেটেড ডাটাবেসের জন্য উন্মুক্ত পরিভাষা ব্যবস্থাপনা

1. Introduction

ভাষা গতিশীল, যেখানে প্রতিদিন নতুন পরিভাষা উদ্ভূত হচ্ছে এবং বিদ্যমানগুলি বিবর্তিত বা অপ্রচলিত হয়ে পড়ছে। এই অবিরাম পরিবর্তন এমন প্রতিষ্ঠানগুলির জন্য একটি উল্লেখযোগ্য চ্যালেঞ্জ উপস্থাপন করে যেগুলি সঠিক ও আধুনিক পরিভাষার উপর নির্ভরশীল, যেমন অনুবাদক, বিষয়বস্তু স্রষ্টা এবং আর্টিফিশিয়াল ইন্টেলিজেন্স (AI) অ্যাপ্লিকেশনের ডেভেলপাররা। সঠিক ব্যবস্থাপনা পদ্ধতি এবং প্রমিত অনুশীলনের অভাবের কারণে স্বতন্ত্র সংস্থাগুলি প্রায়শই তাদের পরিভাষা সংগ্রহ বজায় রাখতে সংগ্রাম করে।

এই গবেষণাপত্রটি এই চ্যালেঞ্জগুলির সমাধান করে EuroTermBank Toolkit (ETBT), একটি উন্মুক্ত পরিভাষা ব্যবস্থাপনা সমাধান যা ডাটাবেসের একটি ফেডারেটেড নেটওয়ার্ক জুড়ে পরিভাষা সম্পদ ভাগাভাগি ও ব্যবস্থাপনা সহজতর করার জন্য নকশা করা হয়েছে। এই টুলকিটটি সংস্থাগুলিকে তাদের পরিভাষা ব্যবস্থাপনা, সংগ্রহ তৈরি এবং সেগুলি অভ্যন্তরীণ ও বাহ্যিকভাবে ভাগাভাগি করতে সক্ষম করে, যেখানে নির্বাচিত ডেটা স্বয়ংক্রিয়ভাবে ইউরোপের বৃহত্তম বহুভাষিক পরিভাষা সম্পদ EuroTermBank-এ অবদান রাখে।

২. ইউরোটার্মব্যাংক টুলকিট (ETBT)

ETBT হল একটি মান-ভিত্তিক সফ্টওয়্যার সমাধান যা প্রতিষ্ঠানগুলিকে তাদের নিজস্ব পরিভাষা ব্যবস্থাপনা নোড স্থাপন করতে দেয়। এই নোডগুলি স্বাধীনভাবে কাজ করতে পারে কিন্তু আরও বিস্তৃত EuroTermBank ফেডারেটেড নেটওয়ার্কের সাথে সংযোগ স্থাপন এবং ডেটা ভাগাভাগি করার জন্য ডিজাইন করা হয়েছে।

২.১ মূল কার্যকারিতা

পরিভাষা ব্যবস্থাপনা: পরিভাষা এন্ট্রি তৈরি, সম্পাদনা, অনুসন্ধান এবং সংগঠিত করুন।
সংগ্রহ কিউরেশন: প্রকল্প বা ডোমেনের জন্য নির্দিষ্ট পরিভাষা সংগ্রহ তৈরি ও পরিচালনা করুন।
স্ট্যান্ডার্ডস কমপ্লায়েন্স: ISO TC37 মানের পরিভাষা তথ্যের জন্য সমর্থন করে (যেমন, TermBase eXchange - TBX)।
ফেডারেটেড শেয়ারিং: ফেডারেটেড নেটওয়ার্কের মাধ্যমে প্রতিষ্ঠানের অভ্যন্তরে এবং বাইরে নিয়ন্ত্রিত পরিভাষা শেয়ারিং সক্ষম করে।

২.২ সিস্টেম আর্কিটেকচার

আর্কিটেকচারটি একটি ক্লায়েন্ট-সার্ভার মডেল অনুসরণ করে যেখানে স্বতন্ত্র প্রতিষ্ঠানিক নোডগুলি (ফেডারেটেড ডাটাবেস) তাদের ডেটার উপর স্থানীয় নিয়ন্ত্রণ বজায় রাখে। একটি কেন্দ্রীয় সমন্বয় স্তর, সম্ভবত API এবং TBX-এর মতো মান অনুসরণ করে ডেটা বিনিময় প্রোটোকল জড়িত, ডেটাকে কেন্দ্রীয় EuroTermBank সংগ্রহস্থলে সমষ্টিবদ্ধ করতে সহায়তা করে। এই নকশা স্থানীয় স্বায়ত্তশাসন এবং বিশ্বব্যাপী সম্পদ একত্রীকরণের মধ্যে ভারসাম্য বজায় রাখে।

৩. প্রাকৃতিক ভাষা প্রক্রিয়াকরণে প্রয়োগ

উচ্চ-গুণমানের পরিভাষা বিভিন্ন NLP কাজের জন্য একটি গুরুত্বপূর্ণ সম্পদ, বিশেষ করে যেগুলি বহুভাষিকতা জড়িত।

৩.১ মেশিন অনুবাদ উন্নতকরণ

টার্মিনোলজি সংযোজন পরিসংখ্যানভিত্তিক এবং নিউরাল মেশিন অনুবাদ (এমটি) উভয় সিস্টেমের গুণগত মান উল্লেখযোগ্যভাবে বাড়াতে প্রমাণিত। নির্দিষ্ট ডোমেইনের পরিভাষাগুলোকে ধারাবাহিকভাবে এবং সঠিকভাবে অনুবাদ নিশ্চিত করে, ETBT-এর মতো টুলগুলো আধুনিক নিউরাল এমটি (এনএমটি) মডেলে সীমাবদ্ধ ডিকোডিং বা সোর্স-টার্ম ট্যাগিং কৌশলগুলোর জন্য প্রয়োজনীয় কাঠামোবদ্ধ ডেটা সরবরাহ করে।

3.2 AI সিস্টেমের সাথে একীকরণ

অনুবাদের বাইরে, নির্ভরযোগ্য টার্মিনোলজি স্পিচ রিকগনিশন, ইনফরমেশন এক্সট্রাকশন এবং আই-চালিত অন্যান্য ভাষা বোঝার টুলে প্রবেশ করে, আইন, চিকিৎসা বা প্রকৌশলের মতো বিশেষায়িত ডোমেইনে এগুলোর নির্ভুলতা উন্নত করে।

4. Federated Network & Data Sharing

ফেডারেটেড পদ্ধতি হল ETBT-এর কৌশলের ভিত্তি। একটি একক, কেন্দ্রীভূত ডাটাবেসের পরিবর্তে, এটি আন্তঃসংযুক্ত নোডগুলির একটি নেটওয়ার্ক তৈরি করে (PDF-এর ধারণাগত চিত্র ২ দেখুন)। প্রতিষ্ঠানগুলি তাদের নিজস্ব পরিভাষা ডাটাবেস (ফেডারেটেড নোড) হোস্ট করে এবং নেটওয়ার্কের সাথে কী শেয়ার করবে তা বেছে নেয়। শেয়ার করা ডেটা কেন্দ্রীয় EuroTermBank-এ একত্রিত হয়ে একটি বিশাল, সর্বদা-আপ-টু-ডেট সম্পদ তৈরি করে। এই মডেলটি ডেটার মালিকদের নিয়ন্ত্রণ বজায় রাখতে দিয়ে এবং একটি সাম্প্রদায়িক সম্পদে অবদান রাখার মাধ্যমে অংশগ্রহণকে উৎসাহিত করে।

নেটওয়ার্ক প্রভাব

ফেডারেটেড নেটওয়ার্ক মডেল EuroTermBank-কে অসংখ্য স্বাধীন উৎস থেকে পরিভাষা সংগ্রহ করতে দেয়, যা যে কোনো একক প্রতিষ্ঠান একা বজায় রাখতে পারে তার চেয়ে বেশি ব্যাপক, গতিশীল এবং সহনশীল একটি সম্পদ তৈরি করে।

5. Key Insights & Analysis

মূল অন্তর্দৃষ্টি

ETBT শুধু আরেকটি ডাটাবেস টুল নয়; এটি পরিভাষা ব্যবস্থাপনায় বিরাজমান "ডেটা সাইলো" সমস্যা সমাধানের একটি কৌশলগত পদক্ষেপ। এর প্রকৃত উদ্ভাবন হলো ফেডারেটেড নেটওয়ার্ক অর্থনৈতিক মডেল, যা একটি ভাগ করা সম্পদ (EuroTermBank) কে প্রণোদনা হিসেবে ব্যবহার করে বিকেন্দ্রীভূত ডেটা অবদানকে উৎসাহিত করে, নিষ্ক্রিয় পরিভাষা সংগ্রহগুলিকে সক্রিয়, আন্তঃসংযুক্ত সম্পদে রূপান্তরিত করে। এটি পূর্ববর্তী গবেষণায় উল্লিখিত (Gornostay, 2010) মৌলিক গ্রহণযোগ্যতার বাধাটি সমাধান করে।

যৌক্তিক প্রবাহ

গবেষণাপত্রের যুক্তি সুসঙ্গত: সমস্যা চিহ্নিত করা (অপ্রচলিত, খণ্ডিত পরিভাষা) → একটি কাঠামোগত সমাধান প্রস্তাব করা (ফেডারেটেড নোড + ভাগ করা টুলকিট) → মূল্য প্রদর্শন করা (এমটি/এনএলপি-তে প্রয়োগ)। একটি বিনামূল্যে, ব্যবহারে সহজ ব্যবস্থাপনা টুল (ETBT) প্রদান এবং ফেডারেটেড নেটওয়ার্কের সম্প্রসারণের মধ্যে সংযোগটি ব্যবসায়িক উন্নয়নের দৃষ্টিকোণ থেকে স্পষ্ট ও আকর্ষণীয়।

Strengths & Flaws

শক্তি: উন্মুক্ত মান (ISO TC37) এর উপর ফোকাস দীর্ঘস্থায়িত্ব এবং আন্তঃক্রিয়াশীলতার জন্য অত্যন্ত গুরুত্বপূর্ণ, যা অন্যান্য ক্ষেত্রে ব্যর্থ মালিকানাধীন সিস্টেম থেকে পাওয়া একটি শিক্ষা। বাস্তব-বিশ্বের NLP অ্যাপ্লিকেশনের সাথে সরাসরি সংযোগ (Bergmanis and Pinnis, 2021b-এর মতো কাজের উদ্ধৃতি দেওয়া) গবেষণাকে ব্যবহারিক উপযোগিতার ভিত্তিতে প্রতিষ্ঠিত করে।

ত্রুটি: গবেষণাপত্রটি স্পষ্টতই শাসন এবং গুণমান নিয়ন্ত্রণ প্রক্রিয়া সম্পর্কে খুবই কম আলোচনা করেছে। ফেডারেটেড নেটওয়ার্কের জন্য সংঘাতপূর্ণ টার্ম সংজ্ঞা বিভিন্ন নোড থেকে কীভাবে সমাধান করা হয়? কেন্দ্রীয় রিপোজিটরিতে গার্বেজ-ইন-গার্বেজ-আউট কীভাবে প্রতিরোধ করা হয়? এগুলি তুচ্ছ চ্যালেঞ্জ নয়, যেমন Wikidata-এর মতো অন্যান্য সহযোগিতামূলক ডেটা প্রকল্পে দেখা গেছে, এবং প্রস্তাবিত স্থাপত্যে এগুলির অনুপস্থিতি একটি উল্লেখযোগ্য ফাঁক।

কার্যকরী অন্তর্দৃষ্টি

প্রতিষ্ঠানের জন্য: ETBT বাস্তবায়ন হল একটি স্বল্প-ঝুঁকিপূর্ণ উপায় যা পরিভাষা কাজকে আধুনিকীকরণ করে এবং বাহ্যিক সহযোগিতার জন্য একটি স্পষ্ট পথ প্রদান করে। গবেষকদের জন্য: এই নেটওয়ার্ক দ্বারা তৈরি ফেডারেটেড ডেটাসেটটি ডোমেন-অ্যাডাপ্টিভ NLP মডেলগুলির প্রশিক্ষণ এবং মূল্যায়নের জন্য একটি স্বর্ণখনি। সম্প্রদায়ের উচিত ETBT দলটিকে ডেটা দ্বন্দ্ব সমাধান এবং গুণমান নিশ্চিতকরণের বিস্তারিত প্রোটোকল প্রকাশ করার জন্য চাপ দেওয়া, নেটওয়ার্কের দীর্ঘমেয়াদী স্বাস্থ্য এবং বৈজ্ঞানিক বিশ্বাসযোগ্যতা নিশ্চিত করার জন্য।

6. Technical Details & Mathematical Framework

যদিও PDF গভীর গাণিতিক ফর্মালিজমে প্রবেশ করে না, NMT-এর মতো সিস্টেমে পরিভাষা সংহতকরণের অন্তর্নিহিত নীতিটি একটি অপ্টিমাইজেশন সমস্যা হিসাবে ফ্রেম করা যেতে পারে। একটি সাধারণ পদ্ধতি হল মডেলের আউটপুট বন্টনকে টার্গেট-ভাষার পরিভাষার দিকে পক্ষপাতিত্ব করা যা ইনপুটে উপস্থিত সোর্স পরিভাষার পরিচিত সমতুল্য।

উদাহরণস্বরূপ, একটি NMT মডেলের ডিকোডিং ধাপের সময়, একটি পরিভাষা সীমাবদ্ধতা প্রয়োগ করা যেতে পারে। যদি সোর্স বাক্যটিতে একটি পরিভাষা $s_t$ থাকে যার পরিভাষা ডাটাবেসে একটি পরিচিত অনুবাদ $t_t$ রয়েছে, তাহলে মডেলের সম্ভাব্যতা বন্টন $P(y_i | y_{

$\log P'(y_i | ...) = \log P(y_i | ...) + \lambda \cdot \mathbb{1}(y_i = t_t)$

where $\mathbb{1}$ is the indicator function এবং $\lambda$ is a tunable hyperparameter controlling the strength of the constraint. More sophisticated methods involve constrained beam search বা specialized tagging of source terms (Dinu et al., 2019; Bergmanis & Pinnis, 2021b). The structured data from ETBT provides the reliable $(s_t, t_t)$ pairs necessary for these techniques.

7. Experimental Results & Chart Description

পিডিএফ-টি পরিভাষা সংযোজনের কার্যকারিতা প্রদর্শনকারী পূর্ববর্তী কাজের উল্লেখ করে কিন্তু ETBT-এর জন্য নতুন কোন পরীক্ষামূলক ফলাফল উপস্থাপন করে না। এটি এমন গবেষণার উদ্ধৃতি দেয় যা দেখায় পরিভাষা MT-এর গুণমান বৃদ্ধি করে (Pinnis, 2015) এবং স্নায়বিক ব্যবস্থায় পরিভাষা সংযোজন সম্পর্কে সাম্প্রতিক কাজ (Bergmanis and Pinnis, 2021b)।

Chart Description (Based on PDF Figure 1 & 2):
চিত্র ১ (ইউরোটার্মব্যাঙ্ক ফেডারেটেড নেটওয়ার্কের সাথে সংযুক্ত ফেডারেটেড নোডসমূহ): এটি সম্ভবত একটি হাব-এন্ড-স্পোক ডায়াগ্রাম চিত্রিত করে। কেন্দ্রীয় হাবটি "EuroTermBank" নামে লেবেলকৃত। এর থেকে বিস্তৃত হচ্ছে একাধিক নোড, যার প্রতিটি একটি ভিন্ন প্রতিষ্ঠানের প্রতিনিধিত্ব করে (যেমন, "University A," "Company B," "Government Agency C")। রেখাগুলি প্রতিটি প্রতিষ্ঠানিক নোডকে কেন্দ্রীয় হাবের সাথে সংযুক্ত করে, দৃশ্যত সেই ফেডারেটেড নেটওয়ার্ককে উপস্থাপন করে যেখানে পৃথক ডাটাবেসগুলি সমষ্টিগত সম্পদে প্রবাহিত হয়।
চিত্র ২ (ইউরোটার্মব্যাঙ্ক ফেডারেটেড নেটওয়ার্কের একটি ধারণাগত চিত্রণ): এটিকে একটি ধারণাগত চিত্র হিসাবে বর্ণনা করা হয়েছে, সম্ভবত ডেটা প্রবাহ এবং স্থাপত্য চিত্রিত করে। এটি সম্ভবত দেখায় যে কীভাবে প্রতিটি প্রতিষ্ঠানিক "নোড"-এর মধ্যে ETBT সফটওয়্যার ব্যবহার করে স্থানীয় পরিভাষা ব্যবস্থাপনা ঘটে। তীরচিহ্নগুলি এই স্থানীয় নোডগুলি থেকে কেন্দ্রীয় ইউরোটার্মব্যাঙ্ক সংগ্রহস্থলে পরিমার্জিত পরিভাষা ডেটার প্রবাহ নির্দেশ করবে, এবং সম্ভাব্য দ্বিমুখী তীরগুলি দেখাতে পারে যে কীভাবে ব্যবহারকারী বা অ্যাপ্লিকেশনগুলি স্থানীয় এবং কেন্দ্রীয় উভয় সম্পদই অনুসন্ধান করতে পারে।

8. বিশ্লেষণ কাঠামো: উদাহরণ কেস

দৃশ্যকল্প: ইউরোপিয়ান মেডিসিনস এজেন্সি (EMA) কে তার নিয়ন্ত্রক নথিতে সমস্ত EU ভাষায় নতুন ফার্মাসিউটিক্যাল পদার্থের নামের (INN) সামঞ্জস্যপূর্ণ অনুবাদ নিশ্চিত করতে হবে।

ETBT কাঠামো প্রয়োগ:

নোড সেটআপ: EMA তার নিজস্ব পরিভাষা নোড তৈরি করতে ETBT মোতায়েন করে।
পরিভাষা কিউরেশন: EMA পরিভাষাবিদরা 24টি EU ভাষায় সংজ্ঞা, প্রসঙ্গ এবং অনুমোদিত অনুবাদ সহ নতুন INN পরিভাষা ইনপুট করেন।
সংগ্রহ ব্যবস্থাপনা: তারা তাদের নোডের মধ্যে একটি "ফার্মাসিউটিক্যাল INN" সংগ্রহ তৈরি করে।
ফেডারেটেড শেয়ারিং: EMA এই সংগ্রহটি EuroTermBank ফেডারেটেড নেটওয়ার্কের সাথে ভাগ করার জন্য কনফিগার করে।
ডাউনস্ট্রিম প্রভাব:
- অভ্যন্তরীণ: EMA অনুবাদক এবং নথি লেখকরা সামঞ্জস্যপূর্ণ পরিভাষার জন্য API/ইন্টারফেসের মাধ্যমে স্থানীয় নোড ব্যবহার করেন।
- বহিঃস্থ: শর্তাবলী ইউরোটার্মব্যাঙ্কে সমষ্টিগত করা হয়েছে। পোল্যান্ডের একটি অনুবাদ কোম্পানি এখন ইউরোটার্মব্যাঙ্কের পাবলিক পোর্টালের মাধ্যমে একটি নতুন ওষুধের নামের অফিসিয়াল পোলিশ অনুবাদ অ্যাক্সেস করতে পারে।
- AI ইন্টিগ্রেশন: চিকিৎসা নথি অনুবাদের জন্য ব্যবহৃত একটি এনএমটি সিস্টেমকে ইউরোটার্মব্যাঙ্ক এপিআই ব্যবহার করার জন্য কনফিগার করা যেতে পারে, "Sacubitril" সর্বদা সঠিকভাবে অনুবাদ করা হয়েছে তা নিশ্চিত করতে সীমাবদ্ধতা প্রয়োগ করে, প্রতিবর্ণীকরণ বা ভুল অনুবাদ নয়।

এই কেসটি প্রদর্শন করে কিভাবে ETBT একটি স্থির, অভ্যন্তরীণ নথি থেকে গতিশীল, ভাগ করা সম্পদে পরিভাষা স্থানান্তর করে যা একটি সম্পূর্ণ ইকোসিস্টেম জুড়ে সামঞ্জস্য এবং দক্ষতা উন্নত করে।

9. Future Applications & Development Directions

রিয়েল-টাইম টার্মিনোলজি প্রোপাগেশন: ফেডারেটেড নোড থেকে গ্রাহক অ্যাপ্লিকেশনগুলিতে (যেমন, এমটি সিস্টেম, ক্যাট টুল) প্রায় তাত্ক্ষণিক আপডেটের জন্য মেকানিজম তৈরি করা, ব্যাচ আপডেট থেকে স্ট্রিমিং মডেলে স্থানান্তরিত করা।
AI-Powered Terminology Extraction & Curation: ETBT কর্মপ্রবাহে LLM এবং অননুমোদিত শব্দ উদ্ধারণ সরঞ্জামগুলিকে সংহত করে কর্পোরা থেকে নতুন শব্দ চিহ্নিতকরণ ও সংজ্ঞায়নে মানব পরিভাষাবিদদের সহায়তা করা, যাতে হাতে-কলমে শ্রম হ্রাস পায়।
Blockchain for Provenance & Trust: বিকেন্দ্রীভূত লেজার প্রযুক্তি অনুসন্ধান করা যাতে প্রতিটি শব্দ ভুক্তির উৎস, সম্পাদনা এবং অনুমোদনের অবস্থা অপরিবর্তনীয়ভাবে ট্র্যাক করা যায়, যা গুণমান ও শাসনের ফাঁক মোকাবেলা করে। এটি পরিভাষা তথ্যের জন্য একটি যাচাইযোগ্য "বিশ্বাস স্কোর" তৈরি করতে পারে।
Cross-modal Terminology: মডেলটিকে পাঠ্যের বাইরে প্রসারিত করে বক্তৃতা স্বীকৃতি (অ্যাকোস্টিক মডেল) এবং এমনকি ছবি/ভিডিও লেবেলিংয়ের জন্য প্রমিত পরিভাষা পরিচালনা করা (দৃশ্য ধারণার সাথে শব্দগুলিকে সংযুক্ত করা), বহুমুখী AI-কে সমর্থন করা।
Deep Integration with LLMs: ফেডারেটেড পরিভাষা নেটওয়ার্ককে একটি নির্ভরযোগ্য জ্ঞানভাণ্ডার হিসাবে ব্যবহার করে বৃহৎ ভাষা মডেলগুলিকে ভিত্তি প্রদান করা, যাতে প্রযুক্তিগত শব্দ সম্পর্কে বিভ্রান্তি রোধ করা যায় এবং বিশেষায়িত ক্ষেত্রগুলিতে তাদের কার্যকারিতা উন্নত করা যায়—এটি পুনরুদ্ধার-সমৃদ্ধ জেনারেশন (RAG) সম্পর্কিত গবেষণার সাথে সঙ্গতিপূর্ণ একটি ধারণা।

10. References

Arcan, M., et al. (2014). CAT ডোমেনে পরিসংখ্যানভিত্তিক মেশিন অনুবাদের জন্য পরিভাষা সম্পদ কাজে লাগানো। LREC-এর কার্যবিবরণী.
Arcan, M., et al. (2017). পরিভাষা হ্যান্ডলিং সহ পেটেন্ট নথির জন্য পরিসংখ্যানভিত্তিক মেশিন অনুবাদ। ইউরোপীয় মেশিন অনুবাদ সমিতির ১৪তম সম্মেলনের কার্যবিবরণী (EAMT).
Bergmanis, T., & Pinnis, M. (2021b). Dynamic Terminology Integration for Adaptive Neural Machine Translation. কম্পিউটেশনাল ভাষাবিজ্ঞান সমিতির অনুসন্ধান: EMNLP 2021.
de Gspert, A., et al. (2018). পেশাদার অনুবাদকদের জন্য Tilde MT প্ল্যাটফর্ম। ইউরোপীয় মেশিন অনুবাদ সমিতির ১৫তম সম্মেলনের কার্যবিবরণী (EAMT).
Dinu, G., et al. (2019). Training Neural Machine Translation to Apply Terminology Constraints. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Exel, M., et al. (2020). Terminology-Aware Sentence Mining for NMT Domain Adaptation. Proceedings of the 22nd Annual Conference of the European Association for Machine Translation (EAMT).
Gornostay, T. (2010). Terminology Management in the European Union. Proceedings of the 14th EURALEX International Congress.
Jon, R., et al. (2021). TermEval 2021: Shared Task on Automatic Term Extraction Using the Annotated Corpora for Term Extraction Research (ACTER) Dataset. Proceedings of the 8th Workshop on Natural Language Processing for Computer Assisted Translation (NLP4CAT).
Pinnis, M. (2015). ডোমেইন অ্যাডাপ্টেশন ফর স্ট্যাটিস্টিক্যাল মেশিন ট্রান্সলেশন উইথ টার্মিনোলজি মাইনিং অ্যান্ড টার্ম ট্রান্সলেশন। পিএইচডি থিসিস, লাটভিয়া বিশ্ববিদ্যালয়.
Vasiljevs, A., & Borzovs, J. (2006). Towards Open এবং Dynamic Lexical এবং Terminological Resources. প্রসিডিংস অফ দ্য ৫থ ইন্টারন্যাশনাল কনফারেন্স অন ল্যাঙ্গুয়েজ রিসোর্সেস অ্যান্ড ইভ্যালুয়েশন (LREC).
Vasiljevs, A., et al. (2008). EuroTermBank: টুওয়ার্ডস গ্রেটার ইন্টারঅপারেবিলিটি অফ ডিস্ট্রিবিউটেড টার্মিনোলজি রিসোর্সেস। প্রসিডিংস অফ দ্য ৬থ ইন্টারন্যাশনাল কনফারেন্স অন ল্যাঙ্গুয়েজ রিসোর্সেস অ্যান্ড ইভ্যালুয়েশন (LREC).
Verplaetse, H., & Lambrechts, J. (2019). Terminology Management in a Modern Translation Workflow. দ্য জার্নাল অফ স্পেশালাইজড ট্রান্সলেশন, 31.
Zhu, J., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). [External reference on federated/cyclic learning structures]
Wikimedia Foundation. (2023). Wikidata: Making a free, collaborative, multilingual database of the world's knowledge. https://www.wikidata.org. [External reference on collaborative data governance]