WOKIE: ترجمه اصطلاح‌نامه‌های SKOS با کمک مدل‌های زبانی بزرگ برای علوم انسانی دیجیتال چندزبانه

1. مقدمه و انگیزه

سازماندهی دانش در علوم انسانی دیجیتال به شدت به واژگان کنترل‌شده، اصطلاح‌نامه‌ها و هستی‌شناسی‌ها متکی است که عمدتاً با استفاده از سیستم ساده سازماندهی دانش (SKOS) مدل‌سازی می‌شوند. یک مانع عمده به دلیل غلبه زبان انگلیسی در این منابع وجود دارد که گویشوران غیربومی را حذف کرده و فرهنگ‌ها و زبان‌های متنوع را کمتر نمایندگی می‌کند. اصطلاح‌نامه‌های چندزبانه برای زیرساخت‌های پژوهشی فراگیر حیاتی هستند، اما ایجاد دستی آن‌ها مقیاس‌پذیر نیست. روش‌های کلاسیک ترجمه ماشینی (MT) در بافت علوم انسانی دیجیتال به دلیل فقدان پیکره‌های دوزبانه تخصصی حوزه، شکست می‌خورند. این مقاله WOKIE (گزینه‌های خوش‌ترجمه‌شده برای مدیریت دانش در محیط‌های بین‌المللی) را معرفی می‌کند؛ یک خط لوله ماژولار متن‌باز که سرویس‌های ترجمه خارجی را با پالایش هدفمند با استفاده از مدل‌های زبانی بزرگ (LLM) ترکیب می‌کند تا ترجمه اصطلاح‌نامه‌های SKOS را خودکار کند و بین کیفیت، مقیاس‌پذیری و هزینه تعادل برقرار نماید.

2. خط لوله WOKIE: معماری و گردش کار

WOKIE به عنوان یک خط لوله چندمرحله‌ای قابل پیکربندی طراحی شده است که نیاز به تخصص قبلی در ترجمه ماشینی یا مدل‌های زبانی بزرگ ندارد. این سیستم روی سخت‌افزارهای معمولی اجرا می‌شود و می‌تواند از سرویس‌های ترجمه رایگان استفاده کند.

2.1 اجزای اصلی

خط لوله شامل سه مرحله اصلی است:

ترجمه اولیه: یک اصطلاح‌نامه SKOS تجزیه می‌شود و برچسب‌های آن (prefLabel, altLabel) به چندین سرویس ترجمه خارجی قابل پیکربندی (مانند Google Translate، DeepL API) ارسال می‌شود.
تجمع کاندیداها و تشخیص عدم توافق: ترجمه‌های هر اصطلاح جمع‌آوری می‌شود. یک نوآوری کلیدی، تشخیص «عدم توافق» بین سرویس‌ها است. یک آستانه قابل پیکربندی (مثلاً اگر ترجمه‌های N سرویس فراتر از یک امتیاز شباهت متفاوت باشند) مرحله پالایش را فعال می‌کند.
پالایش مبتنی بر مدل زبانی بزرگ: برای اصطلاحاتی که ترجمه‌های اولیه در مورد آن‌ها توافق ندارند، ترجمه‌های کاندید و اصطلاح اصلی به یک مدل زبانی بزرگ (مانند GPT-4، Llama 3) داده می‌شود همراه با یک دستورالعمل دقیق که بهترین ترجمه ممکن و توجیه آن را درخواست می‌کند.

2.2 منطق پالایش مبتنی بر مدل زبانی بزرگ

استفاده انتخابی از مدل‌های زبانی بزرگ در طراحی WOKIE محوری است. به جای ترجمه هر اصطلاح با یک مدل زبانی بزرگ (پرهزینه، کند، و بالقوه توهم‌زا)، این مدل‌ها تنها به عنوان داور برای موارد دشوار به کار گرفته می‌شوند. این رویکرد ترکیبی، سرعت و هزینه کم APIهای ترجمه ماشینی استاندارد را برای ترجمه‌های سرراست به کار می‌گیرد و قدرت محاسباتی مدل‌های زبانی بزرگ را برای اصطلاحاتی که در مورد آن‌ها اجماع وجود ندارد، حفظ می‌کند و بدین ترتیب مبادله بین کیفیت و هزینه منابع را بهینه می‌سازد.

3. جزئیات فنی و روش‌شناسی

WOKIE در پایتون پیاده‌سازی شده و از کتابخانه‌هایی مانند RDFLib برای تجزیه SKOS استفاده می‌کند. کارایی سیستم به مکانیسم مسیریابی هوشمند آن وابسته است.

3.1 متریک ارزیابی کیفیت ترجمه

برای ارزیابی کیفیت ترجمه، نویسندگان ترکیبی از متریک‌های خودکار و ارزیابی انسانی تخصصی را به کار گرفتند. برای امتیازدهی خودکار، آن‌ها امتیاز BLEU (جایگزین ارزیابی دوزبانه) را که معمولاً در پژوهش ترجمه ماشینی استفاده می‌شود، اقتباس کردند، اما محدودیت‌های آن را برای عبارات اصطلاحی کوتاه خاطرنشان کردند. ارزیابی اصلی بر بهبود عملکرد تطبیق هستی‌شناسی (OM) متمرکز بود و از سیستم‌های استاندارد OM مانند LogMap و AML استفاده شد. فرضیه این بود که ترجمه‌های با کیفیت بالاتر منجر به امتیازات همترازی بهتر می‌شود. بهبود عملکرد $G$ برای یک اصطلاح‌نامه $T$ پس از ترجمه را می‌توان به صورت زیر فرموله کرد:

$G(T) = \frac{Score_{matched}(T_{translated}) - Score_{matched}(T_{original})}{Score_{matched}(T_{original})}$

که در آن $Score_{matched}$ معیار F از سیستم تطبیق هستی‌شناسی است.

4. نتایج آزمایش و ارزیابی

ارزیابی چندین اصطلاح‌نامه علوم انسانی دیجیتال را در 15 زبان پوشش داد و پارامترها، سرویس‌های ترجمه و مدل‌های زبانی بزرگ مختلف را آزمایش کرد.

آمار کلیدی آزمایش

اصطلاح‌نامه‌های ارزیابی‌شده: چندگانه (مانند Getty AAT، GND)
زبان‌ها: 15 زبان، شامل آلمانی، فرانسوی، اسپانیایی، چینی، عربی
مدل‌های زبانی بزرگ آزمایش‌شده: GPT-4، GPT-3.5-Turbo، Llama 3 70B
سرویس‌های پایه: Google Translate، DeepL API

4.1 کیفیت ترجمه در زبان‌های مختلف

ارزیابی انسانی نشان داد که خط لوله WOKIE (ترجمه ماشینی خارجی + پالایش مدل زبانی بزرگ) به طور مداوم از استفاده از هر سرویس ترجمه خارجی منفرد بهتر عمل کرد. بهبود کیفیت به ویژه برای موارد زیر چشمگیر بود:

زبان‌های کم‌منبع: جایی که APIهای استاندارد اغلب شکست می‌خورند.
اصطلاحات تخصصی حوزه: اصطلاحات با ظرافت فرهنگی یا تاریخی (مانند "fresco secco"، "codex") که ترجمه ماشینی عمومی ترجمه‌های تحت‌اللفظی اما نادرست ارائه می‌دهد.

توضیح نمودار (تصوری): یک نمودار میله‌ای که امتیازات BLEU (یا امتیازات ارزیابی انسانی) را در چهار شرایط مقایسه می‌کند: Google Translate به تنهایی، DeepL به تنهایی، WOKIE با پالایش GPT-3.5، و WOKIE با پالایش GPT-4. میله‌های مربوط به پیکربندی‌های WOKIE به طور قابل توجهی بالاتر هستند، به ویژه برای جفت زبان‌هایی مانند انگلیسی-به-عربی یا انگلیسی-به-چینی.

4.2 بهبود عملکرد تطبیق هستی‌شناسی

نتیجه کمی اصلی. پس از پردازش اصطلاح‌نامه‌های غیرانگلیسی از طریق WOKIE برای افزودن برچسب‌های انگلیسی، امتیازات معیار F سیستم‌های تطبیق هستی‌شناسی (LogMap، AML) به طور قابل توجهی افزایش یافت - به طور متوسط 35-22٪ بسته به پیچیدگی زبان و اصطلاح‌نامه. این کارایی اصلی خط لوله را ثابت می‌کند: این سیستم با قابل کشف ساختن منابع غیرانگلیسی برای ابزارهای تطبیق هستی‌شناسی متمرکز بر انگلیسی، به طور مستقیم قابلیت همکاری معنایی را افزایش می‌دهد.

توضیح نمودار (تصوری): یک نمودار خطی که معیار F تطبیق هستی‌شناسی را روی محور y در برابر روش‌های ترجمه مختلف روی محور x نشان می‌دهد. خط برای حالت "بدون ترجمه" پایین شروع می‌شود، برای "سرویس ترجمه ماشینی منفرد" کمی افزایش می‌یابد و برای "خط لوله WOKIE" به شدت به اوج می‌رسد.

4.3 تحلیل عملکرد و هزینه

با استفاده انتخابی از مدل‌های زبانی بزرگ تنها برای اصطلاحات مورد اختلاف (معمولاً 25-10٪ از کل)، WOKIE هزینه‌های API مدل زبانی بزرگ را در مقایسه با رویکرد ساده ترجمه کامل با مدل زبانی بزرگ، 90-75٪ کاهش داد، در حالی که حدود 95٪ از مزیت کیفیت را حفظ کرد. زمان پردازش عمدتاً توسط فراخوانی‌های مدل زبانی بزرگ تعیین می‌شد، اما خط لوله کلی برای اصطلاح‌نامه‌های با اندازه متوسط روی سخت‌افزار استاندارد عملی باقی ماند.

5. چارچوب تحلیل: یک مطالعه موردی غیرکد

سناریو: یک کتابخانه دیجیتال اروپایی یک اصطلاح‌نامه به زبان آلمانی برای تکنیک‌های هنر قرون وسطی نگهداری می‌کند. پژوهشگران در ژاپن نمی‌توانند منابع مرتبط را بیابند زیرا ابزارهای تطبیق هستی‌شناسی آن‌ها تنها برچسب‌های انگلیسی را پردازش می‌کنند.

کاربرد WOKIE:

ورودی: اصطلاح آلمانی "Wandmalerei" (نقاشی دیواری).
مرحله 1 (ترجمه ماشینی خارجی): Google Translate "wall painting" را برمی‌گرداند. DeepL "mural painting" را برمی‌گرداند. Microsoft Translator "wall painting" را برمی‌گرداند. عدم توافق وجود دارد ("mural" در مقابل "wall").
مرحله 2 (تشخیص عدم توافق): شباهت بین کاندیداها زیر آستانه است. پالایش مدل زبانی بزرگ فعال می‌شود.
مرحله 3 (پالایش مدل زبانی بزرگ): دستورالعمل: "با توجه به اصطلاح تاریخ هنر آلمانی 'Wandmalerei' و ترجمه‌های کاندید انگلیسی ['wall painting', 'mural painting']، کدام یک دقیق‌ترین و از نظر بافت مناسب‌ترین اصطلاح برای یک اصطلاح‌نامه SKOS در تاریخ هنر است؟ تخصصی بودن و کاربرد رایج در این حوزه را در نظر بگیرید."
خروجی مدل زبانی بزرگ: "در بافت اصطلاح‌نامه‌های تاریخ هنر مانند Getty AAT، 'mural painting' توصیف‌گر دقیق‌تر و رایج‌تری برای 'Wandmalerei' است، زیرا به طور خاص به نقاشی اعمال شده مستقیم روی دیوار یا سقف اشاره دارد."
نتیجه: مفهوم SKOS برچسب prefLabel "mural painting" را دریافت می‌کند و تطبیق دقیق با هستی‌شناسی‌های انگلیسی زبان را ممکن می‌سازد.

6. کاربردهای آتی و جهت‌های پژوهشی

فراتر از ترجمه: گسترش WOKIE برای پیشنهاد مفاهیم جدید مرتبط یا برچسب‌های altLabel در زبان مقصد، به عنوان یک ابزار تقویت اصطلاح‌نامه.
ادغام با مدل‌های بنیادی: بهره‌گیری از مدل‌های بینایی-زبان (مانند CLIP) برای ترجمه مفاهیم بر اساس تصاویر مرتبط در مجموعه‌های دیجیتال، نه فقط متن.
حلقه یادگیری فعال: گنجاندن بازخورد انسان در حلقه برای تصحیح خروجی‌های مدل زبانی بزرگ، به طور مداوم بهبود عملکرد خاص حوزه خط لوله.
استانداردسازی ارزیابی: توسعه یک مجموعه معیار اختصاصی برای ارزیابی کیفیت ترجمه SKOS/اصطلاح‌نامه، فراتر رفتن از BLEU به سمت متریک‌هایی که حفظ سلسله‌مراتبی و رابطه‌ای را ثبت می‌کنند.
سیستم‌های گسترده‌تر سازماندهی دانش (KOS): اعمال اصل پالایش ترکیبی ترجمه ماشینی + مدل زبانی بزرگ به هستی‌شناسی‌های پیچیده‌تر (OWL) فراتر از SKOS.

7. منابع

Kraus, F., Blumenröhr, N., Tonne, D., & Streit, A. (2025). Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri. arXiv preprint arXiv:2507.19537.
Miles, A., & Bechhofer, S. (2009). SKOS Simple Knowledge Organization System Reference. W3C Recommendation. https://www.w3.org/TR/skos-reference/
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
Carroll, J. J., & Stickler, P. (2004). RDF Triples in the Semantic Web. IEEE Internet Computing.
Getty Research Institute. (2024). Art & Architecture Thesaurus (AAT). https://www.getty.edu/research/tools/vocabularies/aat/
Papineni, K., et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).

8. تحلیل تخصصی: بینش اصلی، جریان منطقی، نقاط قوت و ضعف، بینش‌های عملی

بینش اصلی: WOKIE فقط یک ابزار ترجمه دیگر نیست؛ این یک موتور قابلیت همکاری عمل‌گرا و هزینه‌آگاه برای جهان تکه‌تکه شده داده‌های میراث فرهنگی است. نوآوری واقعی آن تشخیص این است که ترجمه هوش مصنوعی کامل برای حوزه‌های تخصصی یک تلاش بیهوده است، و در عوض، از مدل‌های زبانی بزرگ به عنوان یک اسکالپل با دقت بالا به جای یک چکش کور استفاده می‌کند. مقاله به درستی مشکل ریشه‌ای در علوم انسانی دیجیتال را شناسایی می‌کند: انگلیسی زبان دفاکتو پرس‌وجو برای داده‌های پیوندی است، که حذف خاموش مخازن عظیم دانش غیرانگلیسی را ایجاد می‌کند. هدف WOKIE ترجمه شاعرانه نیست، بلکه امکان‌پذیر ساختن اکتشاف است، هدفی بسیار دست‌یافتنی‌تر و تأثیرگذارتر.

جریان منطقی: استدلال قانع‌کننده و به خوبی ساختار یافته است. با یک نقطه درد غیرقابل انکار (حذف زبانی در علوم انسانی دیجیتال) شروع می‌شود، راه‌حل‌های آشکار را رد می‌کند (کار دستی غیرممکن است، ترجمه ماشینی کلاسیک به دلیل کمبود داده شکست می‌خورد)، و مدل‌های زبانی بزرگ را به عنوان یک ناجی بالقوه اما ناقص (هزینه، توهمات) قرار می‌دهد. سپس، مدل ترکیبی ظریف را معرفی می‌کند: از APIهای ارزان و سریع برای 80٪ موارد آسان استفاده کنید، و مدل‌های زبانی بزرگ گران و هوشمند را تنها به عنوان داور برای 20٪ موارد مورد اختلاف به کار گیرید. این "تشخیص عدم توافق" هسته هوشمندانه پروژه است. ارزیابی منطقاً کیفیت ترجمه را به نتیجه ملموس و قابل اندازه‌گیری بهبود امتیازات تطبیق هستی‌شناسی پیوند می‌دهد و کاربرد واقعی فراتر از کیفیت ذهنی ترجمه را ثابت می‌کند.

نقاط قوت و ضعف:
نقاط قوت: معماری ترکیبی از نظر تجاری زیرکانه و از نظر فنی مستحکم است. تمرکز بر SKOS، یک استاندارد W3C، ارتباط فوری را تضمین می‌کند. ماهیت متن‌باز و طراحی برای "سخت‌افزارهای معمولی" موانع پذیرش را به شدت کاهش می‌دهد. ارزیابی بر اساس عملکرد تطبیق هستی‌شناسی یک حرکت استادانه است - این کارایی را اندازه می‌گیرد، نه فقط زیبایی‌شناسی.
نقاط ضعف: مقاله بر مهندسی دستورالعمل، که عامل تعیین‌کننده موفقیت یا شکست برای پالایش مدل زبانی بزرگ است، سرسری می‌گذرد. یک دستورالعمل بد می‌تواند لایه مدل زبانی بزرگ را بی‌فایده یا مضر کند. ارزیابی، اگرچه معقول است، هنوز تا حدی منزوی است؛ WOKIE در مقایسه با تنظیم دقیق یک مدل کوچک متن‌باز مانند NLLB روی متن علوم انسانی دیجیتال چگونه عمل می‌کند؟ مسیر هزینه بلندمدت APIهای مدل زبانی بزرگ یک عامل خطر برای پایداری است که به طور کامل مورد توجه قرار نگرفته است.

بینش‌های عملی:

برای مؤسسات علوم انسانی دیجیتال: بلافاصله WOKIE را روی یک اصطلاح‌نامه کلیدی غیرانگلیسی آزمایش کنید. بازده سرمایه‌گذاری در بهبود کشف منابع و همترازی با مراکز اصلی مانند Europeana یا DPLA می‌تواند قابل توجه باشد. با سرویس‌های رایگان شروع کنید تا اعتبارسنجی شود.
برای توسعه‌دهندگان: در کدبیس WOKIE مشارکت کنید، به ویژه در ایجاد یک کتابخانه از دستورالعمل‌های بهینه‌شده و تنظیم‌شده حوزه برای زیرشاخه‌های مختلف علوم انسانی دیجیتال (باستان‌شناسی، موسیقیشناسی و غیره).
برای تأمین‌کنندگان مالی: ایجاد یک معیار طلایی، اصطلاح‌شناسی چندزبانه علوم انسانی دیجیتال را برای پیش‌برد حوزه فراتر از امتیازات BLEU تأمین مالی کنید. از پروژه‌هایی که خروجی WOKIE را در سیستم‌های یادگیری فعال ادغام می‌کنند، حمایت کنید.
گام بحرانی بعدی: جامعه باید یک مدل حکمرانی برای این برچسب‌های ترجمه‌شده ماشینی توسعه دهد. آن‌ها باید به وضوح به عنوان "تقویت‌شده ماشینی" برچسب‌گذاری شوند تا یکپارچگی علمی حفظ شود، و از اصول منشأ داده که توسط ابتکاراتی مانند Research Data Alliance (RDA) حمایت می‌شود، پیروی کنند.

در نتیجه، WOKIE نمایانگر نوعی از کاربرد هوش مصنوعی عمل‌گرا و مبتنی بر مورد استفاده است که در واقع گردش کارها را تغییر خواهد داد. این سیستم به دنبال هوش مصنوعی عمومی نیست؛ یک مشکل خاص و دردناک را با ترکیبی هوشمندانه از فناوری قدیم و جدید حل می‌کند. موفقیت آن نه در امتیازات BLEU، بلکه در تعداد سوابق تاریخی قبلاً نامرئی که ناگهان برای یک پژوهشگر جهانی قابل یافتن می‌شوند، اندازه‌گیری خواهد شد.