تقویت مترجمان مدل‌های زبانی بزرگ از طریق حافظه‌های ترجمه

1. مقدمه

این مقاله رویکردی نوین برای بهبود ترجمه ماشینی (MT) با بهره‌گیری از قابلیت‌های نوظهور یادگیری درون‌متنی مدل‌های زبانی بزرگ (LLM) بررسی می‌کند. فرضیه اصلی این است که حافظه‌های ترجمه (TM) — پایگاه‌های داده‌ای از ترجمه‌های انسانی پیشین — می‌توانند به عنوان پرامپت‌های کم‌نمونه بسیار مؤثری برای مدل‌های زبانی بزرگ عمل کنند و آن‌ها را بدون نیاز به تغییرات معماری یا تنظیم دقیق، به تولید ترجمه‌های دقیق‌تر و مناسب‌تر با حوزه راهنمایی کنند.

این کار در تقابل با روش‌های پیشین قرار می‌گیرد که یا نیازمند تغییر معماری مدل‌های ترجمه ماشینی عصبی (NMT) بودند یا پایگاه‌های دانش ترجمه جداگانه‌ای می‌ساختند. در مقابل، روش پیشنهادی، پرامپت‌دهی حافظه ترجمه برای مدل‌های زبانی بزرگ (TMP-LM)، یک تکنیک سبک‌وزن و صرفاً مبتنی بر پرامپت است که از توانایی ذاتی مدل زبانی بزرگ در درک و پیروی از دستورالعمل‌های ارائه شده در پنجره زمینه‌اش بهره می‌برد.

2. روش‌شناسی: پرامپت‌دهی حافظه ترجمه برای مدل‌های زبانی بزرگ (TMP-LM)

TMP-LM یک چارچوب ساده اما قدرتمند است که با افزودن مثال‌های مرتبط از حافظه ترجمه به ابتدای پرسش ترجمه، دانش ترجمه را به یک مدل زبانی بزرگ تزریق می‌کند. این فرآیند شامل مراحل زیر است: 1) بازیابی جملات مبدأ مشابه و ترجمه‌های آن‌ها از یک حافظه ترجمه برای جمله ورودی داده شده. 2) قالب‌بندی این جفت‌های (مبدأ، مقصد) در یک پرامپت منسجم با پیروی از قالبی خاص. 3) ارائه این پرامپت، به دنبال جمله مبدأ جدید، به مدل زبانی بزرگ برای ترجمه.

2.1. طراحی قالب پرامپت

مقاله سبک‌های مختلف پرامپت را برای انتقال مؤثر وظیفه ترجمه و مثال‌ها به مدل زبانی بزرگ بررسی می‌کند. دو قالب اصلی برجسته شده‌اند:

قالب دستوری (INSTRUCTION): از دستورالعمل‌های زبان طبیعی استفاده می‌کند. برای مثال: "اگر ترجمه 'X1' از انگلیسی به فرانسوی 'Y1' باشد و ترجمه 'X2' 'Y2' باشد، آنگاه ترجمه 'X_new' چیست؟ فقط نتایج ترجمه مورد نیاز است."
قالب ساختاریافته (CODE): از ساختاری رسمی‌تر و مبتنی بر جفت کلید-مقدار استفاده می‌کند. برای مثال: "[src-lang]=[X1] [tgt-lang]=[Y1] [src-lang]=[X2] [tgt-lang]=[Y2] [src-lang]=[X_new] [tgt-lang]="

انتخاب قالب تأثیر قابل توجهی بر عملکرد مدل زبانی بزرگ دارد، و قالب‌های ساختاریافته اغلب با کاهش ابهام، خروجی‌های سازگارتری تولید می‌کنند.

2.2. چارچوب TMP-LM

مکانیسم اصلی را می‌توان به صورت انتزاعی بیان کرد. با توجه به جمله ورودی $x$، یک تابع بازیابی حافظه ترجمه $R(x)$، $k$ جفت مبدأ-مقصد مشابه‌ترین $(x_i^{tm}, y_i^{tm})$ را پیدا می‌کند. یک تابع سازنده پرامپت $C(\{(x_i^{tm}, y_i^{tm})\}_{i=1}^k, x)$ این‌ها را در یک پرامپت نهایی $P$ قالب‌بندی می‌کند. سپس مدل زبانی بزرگ، که با $M$ نشان داده می‌شود، ترجمه را تولید می‌کند: $\hat{y} = M(P)$.

اثربخشی این روش به توانایی مدل زبانی بزرگ در انجام استدلال قیاسی درون‌متنی وابسته است — یعنی شناسایی الگوی موجود در مثال‌های ارائه شده و اعمال آن بر پرسش جدید.

3. تنظیمات آزمایشی و نتایج

3.1. مجموعه‌داده‌ها و خطوط پایه

آزمایش‌ها بر روی وظایف ترجمه در چندین زبان (مانند انگلیسی-آلمانی، انگلیسی-چینی) و حوزه‌ها (حقوقی، فناوری اطلاعات، پزشکی) انجام شد. مدل زبانی بزرگ اصلی مورد استفاده، text-davinci-003 شرکت OpenAI بود. خطوط پایه شامل سیستم‌های قدرتمند و به‌خوب تنظیم‌شده NMT تخصص‌یافته حوزه‌ای بودند که روی پیکره‌های دوزبانه بزرگ آموزش دیده بودند.

نکات برجسته آزمایشی

مدل: GPT-3.5 (text-davinci-003)
معیار ارزیابی: نمره BLEU
مقایسه کلیدی: TMP-LM در مقابل NMT تخصص‌یافته حوزه‌ای پیشرفته

3.2. نتایج کلیدی و تحلیل

نتایج چشمگیر بودند:

افزایش چشمگیر نمرات BLEU: استفاده از پرامپت‌های باکیفیت حافظه ترجمه، عملکرد ترجمه صفر-نمونه مدل زبانی بزرگ را در وظایف مختلف بین 20 تا 30 نمره BLEU بهبود بخشید. این امر یک مدل زبانی بزرگ را از یک مترجم متوسط به یک مترجم بسیار شایسته تبدیل می‌کند.
رقابت با NMTهای پیشرفته: عملکرد مدل زبانی بزرگِ دارای پرامپت قابل مقایسه با، و گاهی فراتر از سیستم‌های NMT پیشرفته‌ای بود که به طور خاص روی داده‌های درون‌حوزه‌ای بزرگ‌مقیاس آموزش دیده بودند. این یافته‌ای مهم است، زیرا نشان می‌دهد مدل‌های زبانی بزرگ با پرامپت‌دهی مناسب می‌توانند بدون آموزش ویژه وظیفه، با عملکرد مدل‌های تخصصی برابری کنند.
حساسیت به قالب: قالب ساختاریافته (CODE) به طور کلی ترجمه‌های قابل اعتمادتر و باکیفیت‌تری نسبت به قالب زبان طبیعی (INSTRUCTION) تولید کرد که بر اهمیت مهندسی دقیق پرامپت تأکید دارد.

توضیح نمودار (ضمنی): یک نمودار میله‌ای سه گروه را برای هر جفت زبانی/حوزه نشان می‌دهد: 1) مدل زبانی بزرگ صفر-نمونه (نمره BLEU پایین)، 2) مدل زبانی بزرگ + TMP-LM (نمره BLEU بسیار بالا)، 3) خط پایه NMT پیشرفته (نمره BLEU بالا، مشابه گروه 2). میله‌های گروه‌های 2 و 3 به هم نزدیک و هر دو بسیار بلندتر از گروه 1 خواهند بود.

4. تحلیل فنی و بینش‌های کلیدی

بینش کلیدی: کشف انقلابی مقاله این است که قابلیت ترجمه یک مدل زبانی بزرگ ثابت نیست، بلکه تابعی از زمینه آن است. مدل خام مترجم ضعیفی است، اما وقتی زمینه آن با مثال‌های ترجمه مرتبط و با وفاداری بالا (حافظه‌های ترجمه) بذرافشانی شود، عملکردی رقابتی با سیستم‌های NMT سفارشی‌سازیشده آزاد می‌کند. این امر اساساً مدل‌های زبانی بزرگ را از مدل‌های ایستا به موتورهای ترجمه پویا و قابل برنامه‌ریزی از طریق زمینه بازتعریف می‌کند. این با تغییر پارادایم گسترده‌تری که توسط پژوهشگران مرکز تحقیقات مدل‌های پایه دانشگاه استنفورد برجسته شده همسو است، که معتقدند "دانش" و "قابلیت‌های" یک مدل بیش از پیش توسط فعال‌سازی مبتنی بر پرامپت، و نه صرفاً وزن‌های ایستا، تعریف می‌شود.

جریان منطقی: استدلال ظریف و قانع‌کننده است. 1) مدل‌های زبانی بزرگ دارای توانایی‌های قوی یادگیری درون‌متنی و پیروی از دستورالعمل هستند (همان‌طور که در کارهایی مانند "آموزش مدل‌های زبانی برای پیروی از دستورالعمل‌ها با بازخورد انسانی" اثر اویانگ و همکاران نشان داده شده). 2) ترجمه یک وظیفه به‌خوبی تعریف‌شده است که می‌توان آن را از طریق مثال‌ها توصیف کرد. 3) حافظه‌های ترجمه، جفت‌های مثال باکیفیت و گردآوری‌شده هستند. 4) بنابراین، ارائه حافظه‌های ترجمه به عنوان مثال‌های درون‌متنی باید — و در عمل نیز چنین می‌کند — کیفیت ترجمه را به شدت بهبود بخشد. منطق این استدلال محکم و شواهد آزمایشی آن قوی است.

نقاط قوت و ضعف: نقطه قوت انکارناپذیر است: یک روش ساده و غیرتهاجمی، دستاوردهای عظیمی به ارمغان می‌آورد. این روش با بهره‌گیری از دارایی‌های موجود حافظه ترجمه و مدل‌های زبانی بزرگ آماده، ترجمه ماشینی باکیفیت را دموکراتیک می‌کند. با این حال، نقاط ضعف در وابستگی‌ها نهفته است. اول، به شدت به کیفیت و مرتبط بودن تطابق‌های بازیابی‌شده از حافظه ترجمه وابسته است — ورودی بی‌ارزش، خروجی بی‌ارزش. دوم، تمام محدودیت‌های مدل‌های زبانی بزرگ را به ارث می‌برد: هزینه، تأخیر و محدودیت‌های پنجره زمینه (مشابه مشکل "گم‌شدن در میانه" که توسط لیو و همکاران شناسایی شد). سوم، همان‌طور که مقاله اشاره می‌کند، این روش شکننده است؛ قالب پرامپت نادرست می‌تواند عملکرد را تنزل دهد. در این مرحله، این روش بیشتر شبیه کیمیاگری است تا مهندسی.

بینش‌های عملی: برای متخصصان، این یک فراخوان روشن است که دیگر به مدل‌های زبانی بزرگ به عنوان مترجمان آماده به کار نگاه نکنند و شروع به دیدن آن‌ها به عنوان سیستم‌های قابل بهینه‌سازی با پرامپت کنند. سرمایه‌گذاری باید از آموزش مدل به سمت ساخت سیستم‌های بازیابی قوی برای حافظه‌های ترجمه و توسعه قالب‌های پرامپت استاندارد و بهینه‌شده برای حوزه‌های مختلف (مشابه استانداردسازی تنظیم دقیق BERT توسط جامعه) تغییر کند. برای پژوهشگران، مرز بعدی، قوی‌تر و کارآمدتر کردن این فرآیند است — بررسی چگونگی فشرده‌سازی دانش حافظه ترجمه در پرامپت‌های کارآمدتر یا چگونگی ترکیب پرامپت‌دهی با تنظیم دقیق سبک‌وزن برای کاهش طول زمینه و هزینه.

5. چارچوب تحلیل: یک مثال غیرکد

یک شرکت ترجمه حقوقی را در نظر بگیرید که دارای یک حافظه ترجمه گسترده از بندهای قرارداد است. پیش از این، یک سیستم NMT برای بهبود، نیاز به آموزش مجدد روی داده‌های حقوقی جدید داشت. با TMP-LM:

ورودی: جمله مبدأ جدید: "The indemnity clause shall survive termination of this Agreement."
بازیابی: سیستم حافظه ترجمه حقوقی را جستجو می‌کند و دو بند مشابه و قبلاً ترجمه‌شده را پیدا می‌کند:
- TM1: مبدأ: "This confidentiality obligation shall survive the expiration of the contract." → مقصد: "La obligación de confidencialidad sobrevivirá a la expiración del contrato."
- TM2: مبدأ: "The warranty shall survive delivery and inspection." → مقصد: "La garantía sobrevivirá a la entrega y la inspección."

ساخت پرامپت (سبک CODE): سیستم این پرامپت را برای مدل زبانی بزرگ می‌سازد:

[src-lang]=[This confidentiality obligation shall survive the expiration of the contract.] [tgt-lang]=[La obligación de confidencialidad sobrevivirá a la expiración del contrato.]
[src-lang]=[The warranty shall survive delivery and inspection.] [tgt-lang]=[La garantía sobrevivirá a la entrega y la inspección.]
[src-lang]=[The indemnity clause shall survive termination of this Agreement.] [tgt-lang]=

خروجی: مدل زبانی بزرگ، با تشخیص الگوی ("X shall survive Y" → "X sobrevivirá a Y")، یک ترجمه سازگار با سبک و دقیق از نظر حقوقی تولید می‌کند: "La cláusula de indemnización sobrevivirá a la terminación de este Acuerdo."

این چارچوب، مدل زبانی بزرگ را به یک دستیار ترجمه آگاه از زمینه تبدیل می‌کند که به اصطلاحات و سبک تثبیت‌شده شرکت پایبند است.

6. کاربردهای آینده و جهت‌های پژوهشی

سیستم‌های ترکیبی پویا: سیستم‌های آینده ترجمه ماشینی ممکن است به طور یکپارچه بین NMT تنظیم‌شده برای متن عمومی و TMP-LM برای حوزه‌های دارای حافظه ترجمه غنی (حقوقی، پزشکی، فنی) جابجا شوند تا کیفیت و هزینه بهینه شود.
فراتر از حافظه‌های ترجمه دوزبانه: گسترش این مفهوم به حافظه‌های ترجمه چندزبانه، امکان ترجمه پل کم‌نمونه یا تطبیق سبک در چندین زبان.
یادگیری فعال و گردآوری حافظه ترجمه: استفاده از نمرات اطمینان مدل زبانی بزرگ یا عدم توافق با حافظه‌های ترجمه موجود برای علامت‌گذاری خطاهای احتمالی در حافظه‌های ترجمه انسانی یا پیشنهاد ورودی‌های جدید برای ویراستاران انسانی، و ایجاد یک حلقه ترجمه خودبهبودبخش.
ادغام با مدل‌های زبانی بزرگ کوچک‌تر و تخصصی: اعمال TMP-LM روی مدل‌های زبانی بزرگ کارآمدتر و متن‌باز (مانند Llama یا Mistral) که به طور خاص برای وظایف ترجمه تنظیم دقیق شده‌اند، تا وابستگی به APIهای بزرگ، عمومی‌منظوره و گران‌قیمت کاهش یابد.
معیارهای استانداردشده پرامپت‌دهی: جامعه به معیارهایی مانند "Prompt-MT" نیاز دارد تا به طور سیستماتیک استراتژی‌های مختلف پرامپت‌دهی برای ترجمه در مدل‌های زبانی بزرگ متنوع را ارزیابی کند، مشابه نقش WMT برای NMT سنتی.

7. منابع

Mu, Y., Reheman, A., Cao, Z., et al. (2023). Augmenting Large Language Model Translators via Translation Memories. arXiv preprint arXiv:2305.17367.
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Khandelwal, U., Levy, O., Jurafsky, D., et al. (2021). Generalization through memorization: Nearest neighbor language models. International Conference on Learning Representations (ICLR).
Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models. Stanford Center for Research on Foundation Models.
Liu, N. F., Lin, K., Hewitt, J., et al. (2023). Lost in the middle: How language models use long contexts. arXiv preprint arXiv:2307.03172.
Reheman, A., Cao, Z., Li, B., et al. (2023). One-shot learning for neural machine translation with translation memories. Findings of the Association for Computational Linguistics.