1. مقدمه
این مقاله رویکردی نوین برای بهبود ترجمه ماشینی (MT) با بهرهگیری از قابلیتهای نوظهور یادگیری درونمتنی مدلهای زبانی بزرگ (LLM) بررسی میکند. فرضیه اصلی این است که حافظههای ترجمه (TM) — پایگاههای دادهای از ترجمههای انسانی پیشین — میتوانند به عنوان پرامپتهای کمنمونه بسیار مؤثری برای مدلهای زبانی بزرگ عمل کنند و آنها را بدون نیاز به تغییرات معماری یا تنظیم دقیق، به تولید ترجمههای دقیقتر و مناسبتر با حوزه راهنمایی کنند.
این کار در تقابل با روشهای پیشین قرار میگیرد که یا نیازمند تغییر معماری مدلهای ترجمه ماشینی عصبی (NMT) بودند یا پایگاههای دانش ترجمه جداگانهای میساختند. در مقابل، روش پیشنهادی، پرامپتدهی حافظه ترجمه برای مدلهای زبانی بزرگ (TMP-LM)، یک تکنیک سبکوزن و صرفاً مبتنی بر پرامپت است که از توانایی ذاتی مدل زبانی بزرگ در درک و پیروی از دستورالعملهای ارائه شده در پنجره زمینهاش بهره میبرد.
2. روششناسی: پرامپتدهی حافظه ترجمه برای مدلهای زبانی بزرگ (TMP-LM)
TMP-LM یک چارچوب ساده اما قدرتمند است که با افزودن مثالهای مرتبط از حافظه ترجمه به ابتدای پرسش ترجمه، دانش ترجمه را به یک مدل زبانی بزرگ تزریق میکند. این فرآیند شامل مراحل زیر است: 1) بازیابی جملات مبدأ مشابه و ترجمههای آنها از یک حافظه ترجمه برای جمله ورودی داده شده. 2) قالببندی این جفتهای (مبدأ، مقصد) در یک پرامپت منسجم با پیروی از قالبی خاص. 3) ارائه این پرامپت، به دنبال جمله مبدأ جدید، به مدل زبانی بزرگ برای ترجمه.
2.1. طراحی قالب پرامپت
مقاله سبکهای مختلف پرامپت را برای انتقال مؤثر وظیفه ترجمه و مثالها به مدل زبانی بزرگ بررسی میکند. دو قالب اصلی برجسته شدهاند:
- قالب دستوری (INSTRUCTION): از دستورالعملهای زبان طبیعی استفاده میکند. برای مثال: "اگر ترجمه 'X1' از انگلیسی به فرانسوی 'Y1' باشد و ترجمه 'X2' 'Y2' باشد، آنگاه ترجمه 'X_new' چیست؟ فقط نتایج ترجمه مورد نیاز است."
- قالب ساختاریافته (CODE): از ساختاری رسمیتر و مبتنی بر جفت کلید-مقدار استفاده میکند. برای مثال: "[src-lang]=[X1] [tgt-lang]=[Y1] [src-lang]=[X2] [tgt-lang]=[Y2] [src-lang]=[X_new] [tgt-lang]="
انتخاب قالب تأثیر قابل توجهی بر عملکرد مدل زبانی بزرگ دارد، و قالبهای ساختاریافته اغلب با کاهش ابهام، خروجیهای سازگارتری تولید میکنند.
2.2. چارچوب TMP-LM
مکانیسم اصلی را میتوان به صورت انتزاعی بیان کرد. با توجه به جمله ورودی $x$، یک تابع بازیابی حافظه ترجمه $R(x)$، $k$ جفت مبدأ-مقصد مشابهترین $(x_i^{tm}, y_i^{tm})$ را پیدا میکند. یک تابع سازنده پرامپت $C(\{(x_i^{tm}, y_i^{tm})\}_{i=1}^k, x)$ اینها را در یک پرامپت نهایی $P$ قالببندی میکند. سپس مدل زبانی بزرگ، که با $M$ نشان داده میشود، ترجمه را تولید میکند: $\hat{y} = M(P)$.
اثربخشی این روش به توانایی مدل زبانی بزرگ در انجام استدلال قیاسی درونمتنی وابسته است — یعنی شناسایی الگوی موجود در مثالهای ارائه شده و اعمال آن بر پرسش جدید.
3. تنظیمات آزمایشی و نتایج
3.1. مجموعهدادهها و خطوط پایه
آزمایشها بر روی وظایف ترجمه در چندین زبان (مانند انگلیسی-آلمانی، انگلیسی-چینی) و حوزهها (حقوقی، فناوری اطلاعات، پزشکی) انجام شد. مدل زبانی بزرگ اصلی مورد استفاده، text-davinci-003 شرکت OpenAI بود. خطوط پایه شامل سیستمهای قدرتمند و بهخوب تنظیمشده NMT تخصصیافته حوزهای بودند که روی پیکرههای دوزبانه بزرگ آموزش دیده بودند.
نکات برجسته آزمایشی
- مدل: GPT-3.5 (text-davinci-003)
- معیار ارزیابی: نمره BLEU
- مقایسه کلیدی: TMP-LM در مقابل NMT تخصصیافته حوزهای پیشرفته
3.2. نتایج کلیدی و تحلیل
نتایج چشمگیر بودند:
- افزایش چشمگیر نمرات BLEU: استفاده از پرامپتهای باکیفیت حافظه ترجمه، عملکرد ترجمه صفر-نمونه مدل زبانی بزرگ را در وظایف مختلف بین 20 تا 30 نمره BLEU بهبود بخشید. این امر یک مدل زبانی بزرگ را از یک مترجم متوسط به یک مترجم بسیار شایسته تبدیل میکند.
- رقابت با NMTهای پیشرفته: عملکرد مدل زبانی بزرگِ دارای پرامپت قابل مقایسه با، و گاهی فراتر از سیستمهای NMT پیشرفتهای بود که به طور خاص روی دادههای درونحوزهای بزرگمقیاس آموزش دیده بودند. این یافتهای مهم است، زیرا نشان میدهد مدلهای زبانی بزرگ با پرامپتدهی مناسب میتوانند بدون آموزش ویژه وظیفه، با عملکرد مدلهای تخصصی برابری کنند.
- حساسیت به قالب: قالب ساختاریافته (CODE) به طور کلی ترجمههای قابل اعتمادتر و باکیفیتتری نسبت به قالب زبان طبیعی (INSTRUCTION) تولید کرد که بر اهمیت مهندسی دقیق پرامپت تأکید دارد.
توضیح نمودار (ضمنی): یک نمودار میلهای سه گروه را برای هر جفت زبانی/حوزه نشان میدهد: 1) مدل زبانی بزرگ صفر-نمونه (نمره BLEU پایین)، 2) مدل زبانی بزرگ + TMP-LM (نمره BLEU بسیار بالا)، 3) خط پایه NMT پیشرفته (نمره BLEU بالا، مشابه گروه 2). میلههای گروههای 2 و 3 به هم نزدیک و هر دو بسیار بلندتر از گروه 1 خواهند بود.
4. تحلیل فنی و بینشهای کلیدی
بینش کلیدی: کشف انقلابی مقاله این است که قابلیت ترجمه یک مدل زبانی بزرگ ثابت نیست، بلکه تابعی از زمینه آن است. مدل خام مترجم ضعیفی است، اما وقتی زمینه آن با مثالهای ترجمه مرتبط و با وفاداری بالا (حافظههای ترجمه) بذرافشانی شود، عملکردی رقابتی با سیستمهای NMT سفارشیسازیشده آزاد میکند. این امر اساساً مدلهای زبانی بزرگ را از مدلهای ایستا به موتورهای ترجمه پویا و قابل برنامهریزی از طریق زمینه بازتعریف میکند. این با تغییر پارادایم گستردهتری که توسط پژوهشگران مرکز تحقیقات مدلهای پایه دانشگاه استنفورد برجسته شده همسو است، که معتقدند "دانش" و "قابلیتهای" یک مدل بیش از پیش توسط فعالسازی مبتنی بر پرامپت، و نه صرفاً وزنهای ایستا، تعریف میشود.
جریان منطقی: استدلال ظریف و قانعکننده است. 1) مدلهای زبانی بزرگ دارای تواناییهای قوی یادگیری درونمتنی و پیروی از دستورالعمل هستند (همانطور که در کارهایی مانند "آموزش مدلهای زبانی برای پیروی از دستورالعملها با بازخورد انسانی" اثر اویانگ و همکاران نشان داده شده). 2) ترجمه یک وظیفه بهخوبی تعریفشده است که میتوان آن را از طریق مثالها توصیف کرد. 3) حافظههای ترجمه، جفتهای مثال باکیفیت و گردآوریشده هستند. 4) بنابراین، ارائه حافظههای ترجمه به عنوان مثالهای درونمتنی باید — و در عمل نیز چنین میکند — کیفیت ترجمه را به شدت بهبود بخشد. منطق این استدلال محکم و شواهد آزمایشی آن قوی است.
نقاط قوت و ضعف: نقطه قوت انکارناپذیر است: یک روش ساده و غیرتهاجمی، دستاوردهای عظیمی به ارمغان میآورد. این روش با بهرهگیری از داراییهای موجود حافظه ترجمه و مدلهای زبانی بزرگ آماده، ترجمه ماشینی باکیفیت را دموکراتیک میکند. با این حال، نقاط ضعف در وابستگیها نهفته است. اول، به شدت به کیفیت و مرتبط بودن تطابقهای بازیابیشده از حافظه ترجمه وابسته است — ورودی بیارزش، خروجی بیارزش. دوم، تمام محدودیتهای مدلهای زبانی بزرگ را به ارث میبرد: هزینه، تأخیر و محدودیتهای پنجره زمینه (مشابه مشکل "گمشدن در میانه" که توسط لیو و همکاران شناسایی شد). سوم، همانطور که مقاله اشاره میکند، این روش شکننده است؛ قالب پرامپت نادرست میتواند عملکرد را تنزل دهد. در این مرحله، این روش بیشتر شبیه کیمیاگری است تا مهندسی.
بینشهای عملی: برای متخصصان، این یک فراخوان روشن است که دیگر به مدلهای زبانی بزرگ به عنوان مترجمان آماده به کار نگاه نکنند و شروع به دیدن آنها به عنوان سیستمهای قابل بهینهسازی با پرامپت کنند. سرمایهگذاری باید از آموزش مدل به سمت ساخت سیستمهای بازیابی قوی برای حافظههای ترجمه و توسعه قالبهای پرامپت استاندارد و بهینهشده برای حوزههای مختلف (مشابه استانداردسازی تنظیم دقیق BERT توسط جامعه) تغییر کند. برای پژوهشگران، مرز بعدی، قویتر و کارآمدتر کردن این فرآیند است — بررسی چگونگی فشردهسازی دانش حافظه ترجمه در پرامپتهای کارآمدتر یا چگونگی ترکیب پرامپتدهی با تنظیم دقیق سبکوزن برای کاهش طول زمینه و هزینه.
5. چارچوب تحلیل: یک مثال غیرکد
یک شرکت ترجمه حقوقی را در نظر بگیرید که دارای یک حافظه ترجمه گسترده از بندهای قرارداد است. پیش از این، یک سیستم NMT برای بهبود، نیاز به آموزش مجدد روی دادههای حقوقی جدید داشت. با TMP-LM:
- ورودی: جمله مبدأ جدید: "The indemnity clause shall survive termination of this Agreement."
- بازیابی: سیستم حافظه ترجمه حقوقی را جستجو میکند و دو بند مشابه و قبلاً ترجمهشده را پیدا میکند:
- TM1: مبدأ: "This confidentiality obligation shall survive the expiration of the contract." → مقصد: "La obligación de confidencialidad sobrevivirá a la expiración del contrato."
- TM2: مبدأ: "The warranty shall survive delivery and inspection." → مقصد: "La garantía sobrevivirá a la entrega y la inspección."
- ساخت پرامپت (سبک CODE): سیستم این پرامپت را برای مدل زبانی بزرگ میسازد:
[src-lang]=[This confidentiality obligation shall survive the expiration of the contract.] [tgt-lang]=[La obligación de confidencialidad sobrevivirá a la expiración del contrato.] [src-lang]=[The warranty shall survive delivery and inspection.] [tgt-lang]=[La garantía sobrevivirá a la entrega y la inspección.] [src-lang]=[The indemnity clause shall survive termination of this Agreement.] [tgt-lang]= - خروجی: مدل زبانی بزرگ، با تشخیص الگوی ("X shall survive Y" → "X sobrevivirá a Y")، یک ترجمه سازگار با سبک و دقیق از نظر حقوقی تولید میکند: "La cláusula de indemnización sobrevivirá a la terminación de este Acuerdo."
این چارچوب، مدل زبانی بزرگ را به یک دستیار ترجمه آگاه از زمینه تبدیل میکند که به اصطلاحات و سبک تثبیتشده شرکت پایبند است.
6. کاربردهای آینده و جهتهای پژوهشی
- سیستمهای ترکیبی پویا: سیستمهای آینده ترجمه ماشینی ممکن است به طور یکپارچه بین NMT تنظیمشده برای متن عمومی و TMP-LM برای حوزههای دارای حافظه ترجمه غنی (حقوقی، پزشکی، فنی) جابجا شوند تا کیفیت و هزینه بهینه شود.
- فراتر از حافظههای ترجمه دوزبانه: گسترش این مفهوم به حافظههای ترجمه چندزبانه، امکان ترجمه پل کمنمونه یا تطبیق سبک در چندین زبان.
- یادگیری فعال و گردآوری حافظه ترجمه: استفاده از نمرات اطمینان مدل زبانی بزرگ یا عدم توافق با حافظههای ترجمه موجود برای علامتگذاری خطاهای احتمالی در حافظههای ترجمه انسانی یا پیشنهاد ورودیهای جدید برای ویراستاران انسانی، و ایجاد یک حلقه ترجمه خودبهبودبخش.
- ادغام با مدلهای زبانی بزرگ کوچکتر و تخصصی: اعمال TMP-LM روی مدلهای زبانی بزرگ کارآمدتر و متنباز (مانند Llama یا Mistral) که به طور خاص برای وظایف ترجمه تنظیم دقیق شدهاند، تا وابستگی به APIهای بزرگ، عمومیمنظوره و گرانقیمت کاهش یابد.
- معیارهای استانداردشده پرامپتدهی: جامعه به معیارهایی مانند "Prompt-MT" نیاز دارد تا به طور سیستماتیک استراتژیهای مختلف پرامپتدهی برای ترجمه در مدلهای زبانی بزرگ متنوع را ارزیابی کند، مشابه نقش WMT برای NMT سنتی.
7. منابع
- Mu, Y., Reheman, A., Cao, Z., et al. (2023). Augmenting Large Language Model Translators via Translation Memories. arXiv preprint arXiv:2305.17367.
- Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
- Khandelwal, U., Levy, O., Jurafsky, D., et al. (2021). Generalization through memorization: Nearest neighbor language models. International Conference on Learning Representations (ICLR).
- Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models. Stanford Center for Research on Foundation Models.
- Liu, N. F., Lin, K., Hewitt, J., et al. (2023). Lost in the middle: How language models use long contexts. arXiv preprint arXiv:2307.03172.
- Reheman, A., Cao, Z., Li, B., et al. (2023). One-shot learning for neural machine translation with translation memories. Findings of the Association for Computational Linguistics.