راه‌اندازی تجزیه‌کننده‌های معنایی چندزبانه با استفاده از مدل‌های زبانی بزرگ: تحلیل و چارچوب

1. مقدمه و مرور کلی

این پژوهش به یک گلوگاه حیاتی در پردازش زبان طبیعی چندزبانه می‌پردازد: ایجاد داده‌های برچسب‌دار باکیفیت و ویژه‌ی وظیفه برای زبان‌های کم‌منبع. پارادایم سنتی ترجمه-آموزش به سرویس‌های ترجمه‌ی ماشینی متکی است که پرهزینه هستند، ممکن است دچار عدم تطابق حوزه شوند و نیازمند طرح‌ریزی جداگانه‌ی فرم منطقی هستند. نویسندگان LLM-T را پیشنهاد می‌دهند، یک خط لوله‌ی نوآورانه که قابلیت‌های کم‌نمونه‌ی مدل‌های زبانی بزرگ را برای راه‌اندازی مجموعه‌داده‌های تجزیه‌ی معنایی چندزبانه به کار می‌گیرد. با در اختیار داشتن یک مجموعه‌ی کوچک بذر از نمونه‌های ترجمه‌شده توسط انسان، از یک مدل زبانی بزرگ درخواست می‌شود تا جفت‌های انگلیسی (گفتار، فرم منطقی) را به یک زبان هدف ترجمه کند و به طور مؤثری داده‌های آموزشی برای تنظیم دقیق یک تجزیه‌کننده‌ی معنایی تولید نماید.

بینش‌های کلیدی

مدل‌های زبانی بزرگ می‌توانند از طریق یادگیری درون‌متنی، ترجمه‌ی ساختاریافته و پیچیده (گفتار + فرم منطقی) را به طور مؤثر انجام دهند.
این روش وابستگی به سیستم‌های پرهزینه و عمومی ترجمه‌ی ماشینی و قوانین شکننده‌ی طرح‌ریزی را کاهش می‌دهد.
عملکرد بهتری نسبت به خطوط پایه‌ی قوی ترجمه-آموزش در ۴۱ زبان از ۵۰ زبان در دو مجموعه‌داده‌ی اصلی نشان می‌دهد.

2. روش‌شناسی: خط لوله‌ی LLM-T

نوآوری اصلی، یک خط لوله‌ی سیستماتیک ترجمه‌ی داده با استفاده از مدل‌های زبانی بزرگ القاشده است.

2.1 جمع‌آوری داده‌های بذر

تعدادی نمونه‌ی انگلیسی از مجموعه‌داده‌ی منبع $D_{eng} = \{(x^i_{eng}, y^i_{eng})\}$ به صورت دستی به زبان هدف $tgt$ ترجمه می‌شوند تا یک مجموعه‌ی بذر $S_{tgt}$ ایجاد شود. این امر نمونه‌های درون‌متنی را برای مدل زبانی بزرگ فراهم می‌کند و وظیفه‌ی ترجمه‌ی مشترک گفتار و فرم منطقی را به آن می‌آموزد.

2.2 القای درون‌متنی برای ترجمه

برای هر نمونه‌ی انگلیسی جدید $(x_{eng}, y_{eng})$، زیرمجموعه‌ای از $k$ نمونه از $S_{tgt}$ انتخاب می‌شود (مثلاً از طریق شباهت معنایی) و به عنوان یک القا قالب‌بندی می‌شود. سپس از مدل زبانی بزرگ (مثلاً PaLM) خواسته می‌شود تا جفت متناظر زبان هدف $(\hat{x}_{tgt}, \hat{y}_{tgt})$ را تولید کند.

ساختار القا: [نمونه بذر ۱: (x_tgt, y_tgt)] ... [نمونه بذر k] [ورودی: (x_eng, y_eng)] [خروجی: ]

2.3 کنترل کیفیت از طریق نمونه‌گیری هسته‌ای

برای افزایش تنوع و کیفیت، نویسندگان از نمونه‌گیری هسته‌ای (بالا-$p$) در طول تولید استفاده می‌کنند و چندین ترجمه‌ی نامزد برای هر نمونه تولید می‌کنند. سپس می‌توان یک مکانیسم انتخاب یا تجمیع (مثلاً بر اساس اطمینان تجزیه‌کننده یا سازگاری) برای انتخاب خروجی نهایی اعمال کرد که مجموعه‌داده‌ی مصنوعی $\hat{D}_{tgt}$ را تشکیل می‌دهد.

3. جزئیات فنی و فرمول‌بندی ریاضی

این فرآیند را می‌توان به عنوان تولید شرطی قالب‌بندی کرد. با در نظر گرفتن یک جفت انگلیسی $(x_e, y_e)$ و یک مجموعه‌ی بذر $S_t$، مدل نگاشت زیر را می‌آموزد:

$P(x_t, y_t | x_e, y_e, S_t) = \prod_{i=1}^{L} P(w_i | w_{

که در آن $(x_t, y_t)$ دنباله‌ی هدف است و تولید از نمونه‌گیری هسته‌ای استفاده می‌کند: $p' = \frac{p}{\sum_{w \in V^{(p)}} p(w)}$ برای $V^{(p)}$، کوچک‌ترین مجموعه‌ای که $\sum_{w \in V^{(p)}} P(w) \ge p$. انتخاب‌های طراحی کلیدی شامل انتخاب بذر، قالب‌بندی القا و استراتژی رمزگشایی برای بیشینه‌سازی $P(x_t, y_t)$ می‌شود.

4. نتایج آزمایشی و تحلیل

4.1 مجموعه‌داده‌ها: MTOP و MASSIVE

آزمایش‌ها بر روی دو مجموعه‌داده‌ی عمومی تجزیه‌ی معنایی انجام شد که نیات و شکاف‌ها را در حوزه‌های متنوعی پوشش می‌دهند (مانند زنگ هشدار، ناوبری، خرید).

MTOP: ۶ حوزه، ۱۱ نیت، ۱۱ زبان را پوشش می‌دهد.
MASSIVE: ۱۸ حوزه، ۶۰ نیت، ۵۱ زبان (شامل بسیاری از زبان‌های کم‌منبع) را پوشش می‌دهد.

این مقیاس، یک بستر آزمایشی قوی برای تعمیم‌پذیری چندزبانه فراهم می‌کند.

4.2 مقایسه‌ی عملکرد

خط پایه‌ی اصلی، یک رویکرد قوی ترجمه-آموزش با استفاده از یک سیستم ترجمه‌ی ماشینی پیشرفته (مانند Google Translate) به دنبال طرح‌ریزی ابتکاری یا یادگرفته‌شده‌ی فرم‌های منطقی است. روش LLM-T بهبودهای قابل توجهی نشان می‌دهد:

خلاصه عملکرد

LLM-T عملکرد بهتری نسبت به ترجمه-آموزش در ۴۱ زبان از ۵۰ زبان دارد. بهبود میانگین قابل توجه است، به ویژه برای زبان‌های دور از نظر زبانی یا کم‌منبع که کیفیت ترجمه‌ی ماشینی استاندارد کاهش می‌یابد. این بهبودها در هر دو معیار دقت نیت و امتیاز F1 شکاف سازگار هستند.

4.3 یافته‌های کلیدی و مطالعات حذفی

اندازه و کیفیت مجموعه‌ی بذر: عملکرد با تعداد نسبتاً کمی از نمونه‌های بذر باکیفیت (مثلاً ~۵۰-۱۰۰) به اشباع می‌رسد که نشان‌دهنده‌ی کارایی داده است.
طراحی القا: گنجاندن هر دو ترجمه مبدأ (انگلیسی) و هدف در القا حیاتی است. قالب $(x, y)$ مؤثرتر از $x$ به تنهایی است.
مقیاس مدل: مدل‌های زبانی بزرگ‌تر (مثلاً PaLM با ۵۴۰ میلیارد پارامتر) ترجمه‌های به مراتب بهتری نسبت به مدل‌های کوچک‌تر تولید می‌کنند که نقش ظرفیت مدل را در این وظیفه‌ی پیچیده برجسته می‌سازد.
تحلیل خطا: خطاهای رایج شامل ترجمه‌ی مقادیر شکاف برای موجودیت‌های خاص فرهنگ (تاریخ‌ها، محصولات) و تعمیم ترکیبی برای پرسش‌های پیچیده است.

5. چارچوب تحلیل: بینش اصلی و نقد

بینش اصلی: دستاورد مقاله صرفاً درباره استفاده از مدل‌های زبانی بزرگ برای ترجمه نیست؛ بلکه درباره بازتعریف ایجاد مجموعه‌داده به عنوان یک وظیفه‌ی تولید کم‌نمونه و درون‌متنی است. این امر از کل خط لوله‌ی شکننده‌ی ترجمه‌ی ماشینی + طرح‌ریزی جداگانه عبور می‌کند که اغلب به دلیل انتشار خطا و عدم تطابق حوزه با شکست مواجه می‌شود. این بینش که یک مدل زبانی بزرگ می‌تواند نگاشت بین تغییرات زبان طبیعی و بازنمایی‌های رسمی آن‌ها را در میان زبان‌ها درونی‌سازی کند، عمیق است. این با یافته‌های آثاری مانند "مدل‌های زبانی یادگیرندگان کم‌نمونه هستند" (براون و همکاران، ۲۰۲۰) همسو است اما آن را در یک مسئله‌ی ساختاریافته‌ی سنتز داده‌ی چندزبانه به کار می‌گیرد.

جریان منطقی: استدلال روشن است: ۱) ترجمه-آموزش پرهزینه و شکننده است. ۲) مدل‌های زبانی بزرگ در تطبیق الگوی کم‌نمونه و بین‌زبانی عالی عمل می‌کنند. ۳) بنابراین، از مدل‌های زبانی بزرگ برای تولید مستقیم جفت‌های (گفتار، فرم منطقی) مورد نیاز برای آموزش استفاده کنید. آزمایش‌ها روی ۵۰ زبان شواهد قانع‌کننده‌ای برای این پیش‌فرض ارائه می‌دهند.

نقاط قوت و ضعف: نقطه قوت اصلی، کاهش چشمگیر هزینه حاشیه‌نویسی انسانی و انعطاف‌پذیری برای تطبیق با هر زبانی تنها با یک مجموعه‌ی بذر کوچک است که یک تغییردهنده‌ی بازی برای پردازش زبان طبیعی کم‌منبع محسوب می‌شود. بهبودهای عملکرد قانع‌کننده و گسترده هستند. با این حال، این رویکرد نقاط ضعف حیاتی دارد. اول، کاملاً وابسته به قابلیت‌های انحصاری یک مدل زبانی بزرگ، بسته و عظیم (PaLM) است. تکرارپذیری، هزینه و کنترل نگرانی‌های جدی هستند. دوم، فرض می‌کند که یک مجموعه‌ی بذر کوچک اما کامل در دسترس است که برای زبان‌های واقعاً کم‌منبع ممکن است هنوز یک مانع قابل توجه باشد. سوم، همانطور که تحلیل خطا اشاره می‌کند، این روش ممکن است با ترکیب‌بندی معنایی عمیق و تطبیق فرهنگی فراتر از ترجمه‌ی واژگانی ساده دست و پنجه نرم کند، مسائلی که در مطالعات انتقال بین‌زبانی کونو و همکاران (۲۰۲۰) نیز ذکر شده است.

بینش‌های عملی: برای متخصصان، نتیجه فوری این است که قبل از سرمایه‌گذاری در خطوط لوله‌ی ترجمه‌ی ماشینی، نمونه‌سازی گسترش داده‌های چندزبانه را با استفاده از GPT-4 یا Claude با این قالب القا انجام دهند. برای پژوهشگران، مسیر پیش رو روشن است: ۱) دموکراتیک کردن روش با کارآمد کردن آن با مدل‌های زبانی بزرگ متن‌باز و کارآمد (مانند LLaMA, BLOOM). ۲) بررسی سنتز مجموعه‌ی بذر—آیا می‌توانیم خود مجموعه‌ی بذر را راه‌اندازی کنیم؟ ۳) تمرکز بر حالت‌های خطا، توسعه اصلاح‌کننده‌های پس‌از وقوع یا یادگیری تقویتی از بازخورد تجزیه‌کننده برای پالایش خروجی‌های مدل زبانی بزرگ، مشابه رویکردهای خودآموزی مورد استفاده در بینایی (مانند تابع زیان سازگاری چرخه‌ای CycleGAN برای ترجمه‌ی جفت‌نشده). آینده در سیستم‌های ترکیبی نهفته است که در آن مدل‌های زبانی بزرگ داده‌های نقره‌ای نویزدار تولید می‌کنند و مدل‌های کوچک‌تر و تخصصی برای پاکسازی و بهره‌برداری کارآمد از آن آموزش می‌بینند.

6. مطالعه موردی: کاربرد چارچوب

سناریو: یک شرکت می‌خواهد یک دستیار صوتی برای رزرو قرارهای پزشکی به زبان‌های هندی و تامیلی مستقر کند، اما تنها یک مجموعه‌داده‌ی تجزیه‌ی معنایی انگلیسی در اختیار دارد.

کاربرد چارچوب LLM-T:

ایجاد بذر: استخدام ۲ مترجم دو زبانه به مدت ۲ روز برای ترجمه‌ی ۱۰۰ نمونه متنوع انگلیسی رزرو قرار (گفتار + فرم منطقی) به هندی و تامیلی. این هزینه یک‌باره است.
مهندسی القا: برای هر یک از ۱۰۰۰۰ نمونه انگلیسی، یک القا با ۵ نمونه بذر که از نظر معنایی بیشترین شباهت را به آن دارد (محاسبه شده از طریق بردارهای جملات) ایجاد کنید و سپس نمونه انگلیسی جدید را اضافه کنید.
تولید مدل زبانی بزرگ: استفاده از یک API (مانند GPT-4 شرکت OpenAI، Claude شرکت Anthropic) با نمونه‌گیری هسته‌ای (بالا-p=0.9) برای تولید ۳ ترجمه نامزد برای هر نمونه.
فیلتر کردن داده: آموزش یک طبقه‌بند کوچک و سریع روی داده‌های بذر برای امتیازدهی به روانی و صحت فرم منطقی نامزدها. انتخاب نامزد با بالاترین امتیاز برای هر نمونه برای ایجاد مجموعه‌های آموزشی نهایی هندی و تامیلی.
آموزش تجزیه‌کننده: تنظیم دقیق یک مدل چندزبانه‌ی BART یا T5 روی مجموعه‌داده‌ی سنتز شده برای هر زبان.

این فرآیند نیاز به مجوز گرفتن برای یک سیستم ترجمه‌ی ماشینی، توسعه قوانین طرح‌ریزی شکاف و رسیدگی دستی به تعامل پیچیده قالب‌های تاریخ/زمان و اصطلاحات پزشکی در بین زبان‌ها را از بین می‌برد.

7. کاربردهای آتی و جهت‌های پژوهشی

فراتر از تجزیه‌ی معنایی: این چارچوب مستقیماً برای هر وظیفه‌ی ایجاد داده‌ی دنباله به دنباله قابل اعمال است: تشخیص موجودیت نام‌دار چندزبانه (متن $→$ برچسب‌ها)، متن به SQL، تولید کد از توصیفات زبان طبیعی.
یادگیری فعال و رشد مجموعه‌ی بذر: ادغام با یادگیری فعال. استفاده از عدم قطعیت تجزیه‌کننده آموزش دیده روی پرسش‌های کاربر واقعی برای انتخاب اینکه کدام نمونه‌ها باید برای ترجمه انسانی در اولویت قرار گیرند تا مجموعه‌ی بذر به صورت تکراری تقویت شود.
تطبیق فرهنگی و گویشی: گسترش فراتر از زبان‌های استاندارد به گویش‌ها. یک مجموعه بذر در آلمانی سوئیسی می‌تواند یک مجموعه‌داده برای آلمانی اتریشی راه‌اندازی کند، در حالی که مدل زبانی بزرگ تغییرات واژگانی و عبارتی را مدیریت می‌کند.
داده‌های مصنوعی برای RLHF: این روش می‌تواند جفت‌های ترجیحی متنوع و چندزبانه برای آموزش مدل‌های پاداش در یادگیری تقویتی از بازخورد انسانی تولید کند که برای همسوسازی دستیاران هوش مصنوعی در سطح جهانی حیاتی است.
کاهش وابستگی به مدل زبانی بزرگ: کار آینده باید بر تقطیر این قابلیت در مدل‌های کوچک‌تر و تخصصی‌تر برای کاهش هزینه و تأخیر متمرکز شود تا این فناوری برای کاربردهای بلادرنگ و لبه در دسترس قرار گیرد.

8. مراجع

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2020). Unsupervised cross-lingual representation learning at scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (مرجع CycleGAN برای یادگیری مبتنی بر سازگاری).
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1-67.
Moradshahi, M., Campagna, G., Semnani, S., Xu, S., & Lam, M. (2020). Localizing open-ontology QA semantic parsers in a day using machine translation. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).