ভাষা নির্বাচন করুন

ডিজিটি-টিএম: ইউরোপীয় কমিশনের একটি বৃহৎ-পরিসরের বহুভাষিক অনুবাদ স্মৃতি

ডিজিটি-টিএম-এর বিশ্লেষণ, এটি একটি বিনামূল্যে উপলব্ধ অনুবাদ স্মৃতি যা ২২টি ইইউ ভাষা ও ২৩১টি ভাষা জোড়া কভার করে, এর সৃষ্টি, ভাষা প্রযুক্তিতে প্রয়োগ এবং ভবিষ্যৎ প্রভাব।
translation-service.org | PDF Size: 0.3 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - ডিজিটি-টিএম: ইউরোপীয় কমিশনের একটি বৃহৎ-পরিসরের বহুভাষিক অনুবাদ স্মৃতি

২২টি ভাষা

আচ্ছাদিত ইইউর সরকারি ভাষা

২৩১টি জোড়া

অনন্য ভাষা অনুবাদ জোড়া

২ গুণ বৃদ্ধি

২০০৭ থেকে ২০১১ সালের প্রকাশের আকার বৃদ্ধি

বার্ষিক হালনাগাদ

পরিকল্পিত প্রকাশের সময়সূচি

1. ভূমিকা ও উদ্দেশ্য

ইউরোপীয় কমিশন (ইসি), এর অনুবাদ মহাপরিচালক (ডিজিটি) এবং যৌথ গবেষণা কেন্দ্রের (জেআরসি) মাধ্যমে, ডিজিটি-টিএম (অনুবাদ স্মৃতি) নিয়ে উন্মুক্ত বহুভাষিক তথ্যের ক্ষেত্রে একটি নজির স্থাপন করেছে। জেআরসি-অ্যাকুইস সমান্তরাল কর্পাসের পর, বৃহৎ-পরিসরের ভাষাগত সম্পদ প্রকাশের একটি বৃহত্তর উদ্যোগের অংশ এই সম্পদ। ডিজিটি-টিএম-এর ২০১১ সালের প্রকাশে ২০০৪-২০১০ সালের নথি রয়েছে এবং এটি ২০০৭ সালের সংস্করণের আকারের দ্বিগুণ। এই প্রচেষ্টা চালিত হয় ইইউ-এর বহুভাষিকতার মৌলিক নীতি দ্বারা, যার লক্ষ্য সকল ইইউ নাগরিকের জন্য তাদের মাতৃভাষায় সাংস্কৃতিক বৈচিত্র্য, স্বচ্ছতা এবং গণতান্ত্রিক তথ্য প্রবেশাধিকারকে উৎসাহিত করা।

এই প্রকাশটি সরকারি খাতের তথ্যের পুনঃব্যবহার সংক্রান্ত নির্দেশিকা ২০০৩/৯৮/ইসি-এর সাথে সামঞ্জস্যপূর্ণ, যা ডিজিটাল উদ্ভাবন এবং সীমান্ত-পার পরিষেবার জন্য এই ধরনের তথ্যকে মূল্যবান কাঁচামাল হিসেবে স্বীকৃতি দেয়।

2. ডিজিটি-টিএম সম্পদ

ডিজিটি-টিএম হল বাক্য এবং তাদের পেশাদারভাবে তৈরি মানব-অনুবাদের একটি সংগ্রহ, যা ২২টি ইইউ সরকারি ভাষা জুড়ে রয়েছে।

2.1. তথ্যের উৎস ও গঠন

মূল তথ্য এসেছে ইউরোপীয় কমিশনের ডিজিটি-এর অনুবাদ কার্যপ্রবাহ থেকে। এতে রয়েছে প্রামাণিক আইনগত, নীতি এবং প্রশাসনিক নথি, যা উচ্চ-মানের, নির্দিষ্ট-ক্ষেত্রের অনুবাদ নিশ্চিত করে। স্মৃতিটি সারিবদ্ধ বাক্য জোড়া হিসেবে গঠিত, যা অনুবাদ স্মৃতি বিনিময়ের (টিএমএক্স) আদর্শ ফরম্যাট।

2.2. প্রকাশের ইতিহাস ও পরিসংখ্যান

প্রথম বড় প্রকাশ হয়েছিল ২০০৭ সালে। ২০১১ সালের প্রকাশ (ডিজিটি-টিএম প্রকাশ ২০১১) ২০১০ সালের শেষ পর্যন্ত তথ্য অন্তর্ভুক্ত করে এবং একটি উল্লেখযোগ্য সম্প্রসারণ চিহ্নিত করে। ইসি এরপর থেকে বার্ষিক প্রকাশ করার পরিকল্পনা করেছে, একটি জীবন্ত, ক্রমবর্ধমান সম্পদ সৃষ্টি করছে। আকারটি ২২টি ভাষার মধ্যে সম্ভাব্য সমস্ত ২৩১টি দিকনির্দেশক অনুবাদ জোড়াকে অন্তর্ভুক্ত করে।

3. প্রয়োগ ও ব্যবহারের ক্ষেত্র

3.1. অনুবাদ পেশাজীবীদের জন্য

প্রাথমিকভাবে, ডিজিটি-টিএম ব্যবহার করা হয় অনুবাদ স্মৃতি সফটওয়্যারের সাথে অনুবাদকদের উৎপাদনশীলতা বাড়াতে এবং অভিন্ন বা অনুরূপ বাক্যের পূর্ববর্তী অনুবাদ প্রস্তাবনার মাধ্যমে পরিভাষাগত সামঞ্জস্য নিশ্চিত করতে।

3.2. ভাষা প্রযুক্তি গবেষণার জন্য

এই সম্পদ গবেষণা ও উন্নয়নের জন্য অমূল্য:

  • পরিসংখ্যানভিত্তিক মেশিন অনুবাদ (এসএমটি): স্বল্প-সম্পদ ভাষা জোড়ার জন্য এসএমটি সিস্টেম তৈরি ও মূল্যায়নের প্রশিক্ষণ তথ্য হিসেবে।
  • পরিভাষা আহরণ: নির্দিষ্ট-ক্ষেত্রের দ্বিভাষিক ও বহুভাষিক পরিভাষা তালিকা আহরণের জন্য।
  • নামকৃত সত্তা শনাক্তকরণ (এনইআর): আন্তঃভাষিক এনইআর সরঞ্জাম উন্নয়ন ও মূল্যায়নের জন্য।
  • বহুভাষিক পাঠ্য শ্রেণীবিভাগ ও ক্লাস্টারিং: আন্তঃভাষিক নথি শ্রেণীবিভাগের জন্য একটি লেবেলযুক্ত ডেটাসেট হিসেবে।

4. প্রযুক্তিগত ও আইনি প্রসঙ্গ

প্রকাশটি নির্দেশিকা ২০০৩/৯৮/ইসি-এর কাঠামোর অধীনে পরিচালিত হয়, যা উদ্ভাবন এবং একটি প্রতিযোগিতামূলক ডিজিটাল একক বাজার গড়ে তুলতে সরকারি খাতের তথ্যের পুনঃব্যবহারকে উৎসাহিত করে। তথ্যটি বিনামূল্যে উপলব্ধ করা হয়েছে, যা ভাষা প্রযুক্তি খাতে গবেষক এবং ক্ষুদ্র ও মাঝারি উদ্যোগের প্রবেশের বাধা কমিয়েছে।

5. সম্পর্কিত ইইউ সম্পদ

ডিজিটি-টিএম ইইউ প্রতিষ্ঠানগুলির উন্মুক্ত বহুভাষিক সম্পদের বৃহত্তর বাস্তুতন্ত্রের একটি অংশ:

  • ইউআর-লেক্স: ২৩টি ভাষায় ইইউ আইনের বিনামূল্যে প্রবেশাধিকার বিন্দু।
  • আইএটিই: ইউরোপের জন্য আন্তঃ-ক্রিয়াশীল পরিভাষা ডাটাবেস।
  • ইউরোভক: একটি বহুভাষিক, বহুশাস্ত্রীয় সমার্থক শব্দভাণ্ডার।
  • জেআরসি-নেমস: একটি নামকৃত সত্তা শনাক্তকরণ ও প্রমিতকরণ সম্পদ।
  • জেইএক্স (জেআরসি ইউরোভক ইন্ডেক্সার): ইউরোভক ব্যবহার করে স্বয়ংক্রিয় বহুভাষিক নথি শ্রেণীবিভাগের সফটওয়্যার।
এই সম্পদগুলি সম্মিলিতভাবে বহুভাষিক তথ্য প্রবেশাধিকার ও প্রক্রিয়াকরণের জন্য একটি ব্যাপক ভিত্তি প্রদান করে।

6. মূল অন্তর্দৃষ্টি ও বিশ্লেষকের দৃষ্টিভঙ্গি

মূল অন্তর্দৃষ্টি: ডিজিটি-টিএম কেবল একটি ডেটাসেট নয়; এটি একটি কৌশলগত ভূ-রাজনৈতিক সম্পদ। ইউরোপীয় কমিশন বিশ্বের বৃহত্তম পেশাদার অনুবাদক নিয়োগকারী হিসেবে তার অনন্য অবস্থানকে কাজে লাগিয়ে বিদ্যমান সবচেয়ে ব্যাপক পাবলিক-ডোমেইন বহুভাষিক কর্পাস গড়ে তুলছে। এই পদক্ষেপটি চালাকির সাথে একটি আমলাতান্ত্রিক প্রয়োজন—অনুবাদ—কে ইইউ-এর ডিজিটাল ও গবেষণা অর্থনীতির জন্য একটি প্রতিযোগিতামূলক সুবিধায় রূপান্তরিত করে। এটি এনএলপি-র জন্য তথ্যের স্বল্পতা সংক্রান্ত এসিএল অ্যান্থোলজির মতো সম্পদে আলোচিত, প্রধান মার্কিন প্রযুক্তি কর্পোরেশনগুলির মালিকানাধীন, প্রায়শই ইংরেজি-কেন্দ্রিক ডেটাসেটগুলির আধিপত্যের সরাসরি মোকাবিলা করে।

যুক্তিসঙ্গত প্রবাহ: যুক্তি অকাট্য: ১) ইইউ আইন বহুভাষিকতা দাবি করে, ২) এটি বিপুল, উচ্চ-মানের অনুবাদ তথ্য তৈরি করে, ৩) এই তথ্য ওপেন-সোর্স করে, ইসি ভাষা প্রযুক্তি (এলটি) তে বাহ্যিক উদ্ভাবনকে জ্বালানি যোগায়, ৪) উন্নত এলটি, ঘুরে, ভবিষ্যতের খরচ কমায় এবং সেই অনুবাদ প্রক্রিয়ার দক্ষতা বাড়ায় যেগুলি তথ্য তৈরি করেছিল। এটি একটি কল্যাণকর চক্র যা বহুভাষিক এআই-এর জন্য ইইউ-এর ভূমিকাকে বৈশ্বিক কেন্দ্র হিসেবে সুদৃঢ় করার জন্য নকশা করা।

শক্তি ও ত্রুটি: এর শক্তি হল এর অতুলনীয় আকার, মান এবং আইনি স্পষ্টতা। ওয়েব-স্ক্র্যাপ করা কর্পাসের মতো নয়, এটি পরিষ্কার, পেশাদারভাবে অনূদিত এবং স্পষ্ট ব্যবহারের অধিকার সহ আসে। তবে, এর প্রধান ত্রুটি হল ক্ষেত্র পক্ষপাত। কর্পাসটি আইনি, প্রশাসনিক এবং রাজনৈতিক আলোচনার দিকে ব্যাপকভাবে ঝুঁকে আছে। এটি কথ্য বা বাণিজ্যিক ভাষার জন্য শক্তিশালী, সাধারণ-উদ্দেশ্যের মেশিন অনুবাদ সিস্টেম প্রশিক্ষণের জন্য এর সরাসরি প্রয়োগযোগ্যতা সীমিত করে, গুগলের এনএমটি-এর মতো মডেলগুলিতে ব্যবহৃত মিশ্র-ক্ষেত্রের তথ্যের সাথে এর ধারার তুলনা করার সময় এই ফাঁকটি স্পষ্ট হয়। এটি প্রাতিষ্ঠানিক এনএলপি-র জন্য একটি স্বর্ণখনি, কিন্তু একটি সর্বজনীন সমাধান নয়।

কার্যকরী অন্তর্দৃষ্টি: গবেষকদের জন্য অগ্রাধিকার হওয়া উচিত ক্ষেত্র অভিযোজন। ডিজিটি-টিএম-কে একটি উচ্চ-মানের বীজ কর্পাস হিসেবে ব্যবহার করুন এবং সূক্ষ্ম-টিউনিং বা ব্যাক-ট্রান্সলেশনের মতো কৌশল প্রয়োগ করুন আরও বহুমুখী মডেল তৈরি করতে আরও কোলাহলপূর্ণ, বিস্তৃত তথ্যের সাথে। ইইউ-এর বাইরের নীতিনির্ধারকদের জন্য, এটি একটি নকশা: সরকারি অনুবাদ স্মৃতির উন্মুক্ত প্রকাশ বাধ্যতামূলক করুন। উদ্যোক্তাদের জন্য, সুযোগটি আইনি বা সম্মতি-কেন্দ্রিক বহুভাষিক অনুসন্ধান ও বিশ্লেষণের জন্য বিশেষায়িত সাস সরঞ্জাম তৈরি করার মধ্যে রয়েছে, সরাসরি এই নির্দিষ্ট-ক্ষেত্রের শক্তিকে কাজে লাগিয়ে পক্ষপাতের বিরুদ্ধে লড়াই না করে।

7. প্রযুক্তিগত বিবরণ ও গাণিতিক কাঠামো

ডিজিটি-টিএম-এর প্রাথমিক মূল্য এর সমান্তরাল বাক্য সারিবদ্ধতায় নিহিত। আনুষ্ঠানিকভাবে, উৎস ভাষা $L_s$ থেকে লক্ষ্য ভাষা $L_t$-এ অনূদিত একটি নথি $D$-এর জন্য, টিএম-এ সারিবদ্ধ জোড়ার একটি সেট রয়েছে $\{(s_1, t_1), (s_2, t_2), ..., (s_n, t_n)\}$, যেখানে $s_i$ একটি উৎস বাক্য এবং $t_i$ হল এর মানব-উৎপাদিত অনুবাদ।

পরিসংখ্যানভিত্তিক মেশিন অনুবাদে, এই ধরনের একটি কর্পাস অনুবাদ মডেল প্যারামিটার অনুমান করতে ব্যবহৃত হয়। একটি মৌলিক উপাদান হল বাক্যাংশ অনুবাদ সম্ভাবনা $\phi(\bar{t}|\bar{s})$, যা সারিবদ্ধ তথ্যের মধ্যে আপেক্ষিক কম্পাঙ্ক থেকে অনুমান করা হয়: $$\phi(\bar{t}|\bar{s}) = \frac{\text{count}(\bar{s}, \bar{t})}{\sum_{\bar{t}'}\text{count}(\bar{s}, \bar{t}')}$$ যেখানে $\bar{s}$ এবং $\bar{t}$ হল শব্দের (বাক্যাংশ) ধারাবাহিক ক্রম যা সারিবদ্ধ বাক্য জোড়া থেকে আহরণ করা হয়েছে। ডিজিটি-টিএম-এর বিশাল আকার এই সম্ভাবনাগুলির আরও নির্ভরযোগ্য অনুমান সম্ভব করে, বিশেষ করে দীর্ঘতর বাক্যাংশ এবং নিম্ন-কম্পাঙ্কের ভাষা জোড়ার জন্য।

দ্বিভাষিক পরিভাষা আহরণের জন্য, পয়েন্টওয়াইজ পারস্পরিক তথ্য (পিএমআই) এর মতো পরিমাপ সারিবদ্ধ কর্পাস জুড়ে গণনা করা যেতে পারে সম্ভাব্য পরিভাষা অনুবাদ শনাক্ত করতে: $$\text{PMI}(s, t) = \log_2 \frac{P(s, t)}{P(s)P(t)}$$ যেখানে $P(s, t)$ হল উৎস শব্দ $s$ এবং লক্ষ্য শব্দ $t$ সারিবদ্ধ বাক্যগুলিতে একসাথে ঘটার সম্ভাবনা, এবং $P(s)$, $P(t)$ হল তাদের প্রান্তিক সম্ভাবনা।

8. পরীক্ষামূলক ফলাফল ও তথ্য বিশ্লেষণ

যদিও পিডিএফ নির্দিষ্ট পরীক্ষামূলক ফলাফল উপস্থাপন করে না, বর্ণিত আকারটি উল্লেখযোগ্য সম্ভাবনা বোঝায়। প্রসঙ্গের জন্য, অনুরূপ ইইউ কর্পাস (যেমন জেআরসি-অ্যাকুইস) ব্যবহার করে গবেষণায় ইইউ ভাষার জন্য এসএমটি মানের উল্লেখযোগ্য উন্নতি দেখানো হয়েছে। উদাহরণস্বরূপ, "নিউরাল মেশিন অনুবাদের জন্য ছয়টি চ্যালেঞ্জ"-এ কোহেন ও নোলস (২০১৭) উল্লেখ করেছেন যে ইউরোপার্ল এবং অ্যাকুইসের মতো বৃহৎ সমান্তরাল কর্পাসের প্রাপ্যতা ইউরোপীয় ভাষার জন্য প্রতিযোগিতামূলক এনএমটি সক্ষম করার একটি মূল কারণ।

চার্ট বর্ণনা (অনুমিত): একটি প্রকল্পিত বার চার্ট শিরোনাম "ডিজিটি-টিএম বাক্য জোড়ার বৃদ্ধি (২০০৭ বনাম ২০১১ প্রকাশ)" একটি নমুনা ভাষা জোড়ার (যেমন, ইংরেজি-ফরাসি) জন্য দুটি বার দেখাবে। ২০০৭ সালের বার একটি নির্দিষ্ট উচ্চতার হবে (প্রাথমিক আয়তন প্রতিনিধিত্ব করে)। ২০১১ সালের বার ঠিক দ্বিগুণ লম্বা হবে, "দুই গুণ বড়" দাবিটি দৃশ্যত নিশ্চিত করে। একটি মাধ্যমিক লাইন গ্রাফ ২০০৪-২০১০ সালের মধ্যে বাক্য জোড়ার ক্রমবর্ধমান সংখ্যা দেখাতে পারে, যা ২০১১ সালের প্রকাশ গঠনকারী নথিগুলির স্থির গ্রহণ চিত্রিত করে।

মূল পরিসংখ্যানগত উপসংহার হল প্রকাশগুলির মধ্যে তথ্যের পরিমাণ দ্বিগুণ হওয়া। মেশিন লার্নিং-এ, বিশেষত তথ্য-ক্ষুধার্ত নিউরাল মডেলগুলির জন্য, এই আকার বৃদ্ধির মূল্য অরৈখিক। এটি একটি ভাষা জোড়াকে "স্বল্প-সম্পদ" থেকে "মধ্যম-সম্পদ"-এ নিয়ে যেতে পারে, সম্ভাব্যভাবে অনুবাদ মানের মেট্রিক (যেমন, ব্লু স্কোর) কয়েক পয়েন্ট উন্নত করতে পারে, যেমন এনএমটি-এর জন্য তথ্য স্কেলিং আইনের গবেষণায় দেখা গেছে।

9. বিশ্লেষণ কাঠামো: একটি ব্যবহারের ক্ষেত্রের উদাহরণ

পরিস্থিতি: একটি ভাষা প্রযুক্তি স্টার্টআপ ভাষা জুড়ে ইইউ নিয়ন্ত্রক ঘোষণা পর্যবেক্ষণের জন্য একটি বিশেষায়িত সরঞ্জাম তৈরি করতে চায়।

কাঠামো প্রয়োগ (কোন কোড নেই):

  1. সমস্যা বিশ্লেষণ: মূল কাজ হল আইনি/নিয়ন্ত্রক ক্ষেত্রে আন্তঃভাষিক তথ্য পুনরুদ্ধার (সিএলআইআর) এবং শ্রেণীবিভাগ।
  2. সম্পদ ম্যাপিং:
    • ডিজিটি-টিএম: ইংরেজি এবং ফরাসির জন্য একটি নির্দিষ্ট-ক্ষেত্রের দ্বিভাষিক এমবেডিং মডেল (যেমন, ভেকম্যাপ বা মিউজ ব্যবহার করে) প্রশিক্ষণের জন্য সমান্তরাল কর্পাস হিসেবে ব্যবহৃত। এটি একটি ভেক্টর স্পেস তৈরি করে যেখানে ভাষা জুড়ে শব্দার্থগতভাবে অনুরূপ নিয়ন্ত্রক পরিভাষাগুলি ঘনিষ্ঠভাবে সারিবদ্ধ থাকে।
    • ইউরোভক (জেইএক্সের মাধ্যমে): লক্ষ্য শ্রেণীবিভাগ স্কিমা হিসেবে ব্যবহৃত। নথিগুলি প্রাসঙ্গিক ইউরোভক বর্ণনাকারী দিয়ে ট্যাগ করা হয়।
    • আইএটিই: ডিজিটি-টিএম থেকে শেখা পরিভাষা সারিবদ্ধতার মান যাচাই করার জন্য একটি বৈধতা অভিধান হিসেবে ব্যবহৃত।
  3. প্রক্রিয়া প্রবাহ:
    1. ডিজিটি-টিএম-এ আন্তঃভাষিক শব্দ এমবেডিং প্রশিক্ষণ দিন।
    2. একটি নতুন ফরাসি নিয়ন্ত্রক নথির জন্য, ফরাসি এমবেডিং ব্যবহার করে এটিকে একটি নথি ভেক্টরে রূপান্তর করুন।
    3. ধাপ ১-এ শেখা সারিবদ্ধতা ব্যবহার করে এই ভেক্টরটিকে ইংরেজি এমবেডিং স্পেসে প্রজেক্ট করুন।
    4. প্রজেক্ট করা ভেক্টরটিকে পূর্ব-ভেক্টরাইজড ইংরেজি নথিগুলির একটি ডাটাবেসের সাথে তুলনা করুন (জেইএক্সের মাধ্যমে ইউরোভক দিয়ে শ্রেণীবদ্ধ) সবচেয়ে শব্দার্থগতভাবে অনুরূপ ইইউ নিয়মাবলী খুঁজে পেতে।
    5. মিলিত ইংরেজি নথিগুলি থেকে প্রাসঙ্গিক ইউরোভক বর্ণনাকারী নতুন ফরাসি নথিতে নির্ধারণ করুন।
  4. ফলাফল: স্টার্টআপ এখন যেকোনো আচ্ছাদিত ভাষায় নতুন নিয়ন্ত্রক পাঠ্যগুলিকে স্বয়ংক্রিয়ভাবে শ্রেণীবদ্ধ করতে এবং বিদ্যমান বহুভাষিক কর্পাসের সাথে সংযুক্ত করতে পারে, দক্ষ পর্যবেক্ষণ ও বিশ্লেষণ সক্ষম করে।
এই উদাহরণটি প্রদর্শন করে কিভাবে ডিজিটি-টিএম অপরিহার্য "আঠা" বা প্রশিক্ষণ তথ্য হিসেবে কাজ করে যা অন্যান্য ইইউ সম্পদ (ইউরোভক, আইএটিই) কে একটি কার্যকরী, নির্দিষ্ট-ক্ষেত্রের অ্যাপ্লিকেশনে একীভূত করতে সক্ষম করে।

10. ভবিষ্যৎ প্রয়োগ ও উন্নয়নের দিকনির্দেশ

ডিজিটি-টিএম-এর গতিপথ বেশ কয়েকটি মূল ভবিষ্যৎ উন্নয়নের দিকে নির্দেশ করে:

  • বৃহৎ ভাষা মডেল (এলএলএম) এর ভিত্তি: ডিজিটি-টিএম আইনি ও প্রশাসনিক ক্ষেত্রের জন্য বিশেষভাবে বহুভাষিক এলএলএম (বার্ট বা এক্সএলএম-আর-এর মতো) প্রাক-প্রশিক্ষণ বা সূক্ষ্ম-টিউনিংয়ের জন্য আদর্শ, বিশেষায়িত "নিয়ন্ত্রক জিপিটি" তৈরি করে।
  • রিয়েল-টাইম অনুবাদ স্মৃতি সার্ভিস (টিএমএএএস): বার্ষিক হালনাগাদের সাথে, ইসি একটি লাইভ এপিআই অফার করতে পারে যেখানে অনুবাদ পরামর্শগুলি সমগ্র, ক্রমবর্ধমান ডিজিটি-টিএম থেকে আহরণ করা হয়, বিশ্বব্যাপী ফ্রিল্যান্স অনুবাদক এবং ছোট সংস্থাগুলিকে উপকৃত করে।
  • পক্ষপাত সনাক্তকরণ ও ন্যায্যতা নিরীক্ষণ: কর্পাসটি, ইইউ-এর সরকারি যোগাযোগের রেকর্ড হিসেবে, ভাষাগত পক্ষপাত, পরিভাষা বিবর্তন এবং ভাষা ও নীতি ক্ষেত্র জুড়ে উপস্থাপনা নিরীক্ষা করার জন্য বিশ্লেষণ করা যেতে পারে।
  • উন্নত বহু-মাধ্যমিক প্রয়োগ: ভবিষ্যৎ প্রকাশগুলি অন্যান্য উন্মুক্ত তথ্যের সাথে যুক্ত হতে পারে, যেমন সরকারি বক্তৃতা (ভিডিও/অডিও) বা ফরম্যাটেড আইনি পাঠ্য (গঠন সহ পিডিএফ), বহু-মাধ্যমিক অনুবাদ এবং নথি বোঝার গবেষণা সক্ষম করে।
  • মূল্যায়নের মান: ডিজিটি-টিএম আনুষ্ঠানিক, আইনি-সংবেদনশীল পাঠ্যে বাণিজ্যিক এমটি সিস্টেমের দৃঢ়তা মূল্যায়নের জন্য একটি আদর্শ পরীক্ষার ক্ষেত্র হয়ে উঠতে পারে, সাধারণ-ক্ষেত্রের মূল্যায়ন বেঞ্চমার্কের বাইরে যাওয়া।

বার্ষিক প্রকাশের প্রতিশ্রুতি ডিজিটি-টিএম-কে একটি স্থির স্ন্যাপশট থেকে একটি গতিশীল, অনুদৈর্ঘ্য ডেটাসেটে রূপান্তরিত করে, সময়ের সাথে ভাষা পরিবর্তন এবং নীতি প্রভাব ট্র্যাক করার নতুন গবেষণার পথ খুলে দেয়।

11. তথ্যসূত্র

  1. স্টেইনবার্গার, আর., আইসেল, এ., ক্লোক, এস., পিলোস, এস., এবং শ্লুটার, পি. (বছর)। ডিজিটি-টিএম: ২২টি ভাষায় একটি বিনামূল্যে উপলব্ধ অনুবাদ স্মৃতি। ইউরোপীয় কমিশন।
  2. স্টেইনবার্গার, আর., পুলিকুয়েন, বি., উইডিগার, এ., ইগনাত, সি., এরজাভেক, টি., টুফিস, ডি., এবং ভার্গা, ডি. (২০০৬)। জেআরসি-অ্যাকুইস: ২০+ ভাষা সহ একটি বহুভাষিক সারিবদ্ধ সমান্তরাল কর্পাস। ৫ম আন্তর্জাতিক ভাষা সম্পদ ও মূল্যায়ন সম্মেলনের কার্যবিবরণী (এলআরইসি'০৬)।
  3. কোহেন, পি., এবং নোলস, আর. (২০১৭)। নিউরাল মেশিন অনুবাদের জন্য ছয়টি চ্যালেঞ্জ। প্রথম নিউরাল মেশিন অনুবাদ কর্মশালার কার্যবিবরণী। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিক্স।
  4. ইউরোপীয় কমিশন, অনুবাদ মহাপরিচালক। (২০০৮)। একটি বহুভাষিক সম্প্রদায়ের জন্য অনুবাদ করা। ইউরোপীয় ইউনিয়নের প্রকাশনা অফিস।
  5. সরকারি খাতের তথ্যের পুনঃব্যবহার সংক্রান্ত ইউরোপীয় সংসদ ও কাউন্সিলের নির্দেশিকা ২০০৩/৯৮/ইসি। ইউরোপীয় ইউনিয়নের সরকারি জার্নাল, এল ৩৪৫।
  6. কনিও, এ., এবং অন্যান্য। (২০২০)। স্কেলে অপরিচালিত আন্তঃভাষিক উপস্থাপনা শেখা। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিক্স-এর ৫৮তম বার্ষিক সভার কার্যবিবরণী (এসিএল)। (ভবিষ্যৎ এলএলএম প্রয়োগের জন্য প্রাসঙ্গিক এক্সএলএম-আর মডেলের তথ্যসূত্র)।
  7. এসিএল অ্যান্থোলজি। (n.d.)। কম্পিউটেশনাল ভাষাবিজ্ঞানে গবেষণা পত্রের একটি ডিজিটাল আর্কাইভ। থেকে সংগৃহীত https://www.aclweb.org/anthology/ (এনএলপি গবেষণা প্রসঙ্গের জন্য সাধারণ তথ্যসূত্র)।