Выбрать язык

WOKIE: Перевод SKOS-тезаурусов с помощью LLM для многоязычных цифровых гуманитарных наук

Представляем WOKIE — открытый конвейер для автоматического перевода SKOS-тезаурусов с использованием внешних сервисов и доработки LLM для повышения доступности и межъязыковой совместимости в цифровых гуманитарных науках.
translation-service.org | PDF Size: 4.2 MB
Оценка: 4.5/5
Ваша оценка
Вы уже оценили этот документ
Обложка PDF-документа - WOKIE: Перевод SKOS-тезаурусов с помощью LLM для многоязычных цифровых гуманитарных наук

1. Введение и мотивация

Организация знаний в цифровых гуманитарных науках (ЦГН) в значительной степени опирается на контролируемые словари, тезаурусы и онтологии, в основном моделируемые с помощью Simple Knowledge Organization System (SKOS). Существует значительный барьер из-за доминирования английского языка в этих ресурсах, что исключает носителей других языков и недостаточно представляет разнообразные культуры и языки. Многоязычные тезаурусы имеют решающее значение для инклюзивной исследовательской инфраструктуры, однако их ручное создание не масштабируется. Классические методы машинного перевода (МП) терпят неудачу в контексте ЦГН из-за отсутствия предметно-ориентированных двуязычных корпусов. В данной статье представлен WOKIE (Well-translated Options for Knowledge Management in International Environments) — открытый модульный конвейер, который сочетает внешние сервисы перевода с целевой доработкой с использованием больших языковых моделей (LLM) для автоматизации перевода SKOS-тезаурусов, балансируя качество, масштабируемость и стоимость.

2. Конвейер WOKIE: Архитектура и рабочий процесс

WOKIE разработан как настраиваемый многоэтапный конвейер, не требующий предварительных знаний в области МП или LLM. Он работает на обычном оборудовании и может использовать бесплатные сервисы перевода.

2.1 Основные компоненты

Конвейер состоит из трёх основных этапов:

  1. Начальный перевод: SKOS-тезаурус анализируется, и его метки (prefLabel, altLabel) отправляются в несколько настраиваемых внешних сервисов перевода (например, Google Translate, DeepL API).
  2. Агрегация кандидатов и обнаружение расхождений: Собираются переводы для каждого термина. Ключевым нововведением является обнаружение "расхождений" между сервисами. Настраиваемый порог (например, если переводы от N сервисов отличаются сверх определённого показателя схожести) запускает этап доработки.
  3. Доработка на основе LLM: Для терминов, по которым начальные переводы расходятся, кандидаты переводов и исходный термин передаются в LLM (например, GPT-4, Llama 3) с тщательно составленным промптом, запрашивающим наилучший возможный перевод и его обоснование.

2.2 Логика доработки на основе LLM

Селективное использование LLM является центральным в дизайне WOKIE. Вместо перевода каждого термина с помощью LLM (дорого, медленно, потенциально с галлюцинациями), LLM используются только в качестве арбитров для сложных случаев. Этот гибридный подход использует скорость и низкую стоимость стандартных API МП для простых переводов, оставляя вычислительные ресурсы LLM для терминов, по которым нет консенсуса, тем самым оптимизируя компромисс между качеством и затратами ресурсов.

3. Технические детали и методология

WOKIE реализован на Python с использованием библиотек, таких как RDFLib для парсинга SKOS. Эффективность системы зависит от её интеллектуального механизма маршрутизации.

3.1 Метрика оценки качества перевода

Для оценки качества перевода авторы использовали комбинацию автоматических метрик и экспертной оценки людьми. Для автоматического подсчёта очков они адаптировали показатель BLEU (Bilingual Evaluation Understudy), обычно используемый в исследованиях МП, но отметили его ограничения для коротких терминологических фраз. Основная оценка была сосредоточена на улучшении производительности сопоставления онтологий (Ontology Matching, OM) с использованием стандартных систем OM, таких как LogMap и AML. Гипотеза заключалась в том, что переводы более высокого качества приведут к лучшим показателям выравнивания. Прирост производительности $G$ для тезауруса $T$ после перевода можно сформулировать как:

$G(T) = \frac{Score_{matched}(T_{translated}) - Score_{matched}(T_{original})}{Score_{matched}(T_{original})}$

где $Score_{matched}$ — это F-мера от системы сопоставления онтологий.

4. Результаты экспериментов и оценка

Оценка охватила несколько тезаурусов ЦГН на 15 языках, тестируя различные параметры, сервисы перевода и LLM.

Ключевые экспериментальные статистики

  • Оцененные тезаурусы: Несколько (например, Getty AAT, GND)
  • Языки: 15, включая немецкий, французский, испанский, китайский, арабский
  • Протестированные LLM: GPT-4, GPT-3.5-Turbo, Llama 3 70B
  • Базовые сервисы: Google Translate, DeepL API

4.1 Качество перевода для разных языков

Экспертная оценка показала, что конвейер WOKIE (внешний МП + доработка LLM) постоянно превосходит использование любого отдельного внешнего сервиса перевода. Улучшение качества было наиболее заметным для:

  • Языков с малыми ресурсами: Где стандартные API часто терпят неудачу.
  • Предметно-ориентированной терминологии: Терминов с культурными или историческими нюансами (например, "fresco secco", "codex"), для которых общий МП даёт буквальный, но неточный перевод.

Описание диаграммы (предполагаемое): Столбчатая диаграмма, сравнивающая показатели BLEU (или баллы экспертной оценки) для четырёх условий: только Google Translate, только DeepL, WOKIE с доработкой GPT-3.5 и WOKIE с доработкой GPT-4. Столбцы для конфигураций WOKIE значительно выше, особенно для языковых пар, таких как английский-арабский или английский-китайский.

4.2 Улучшение производительности сопоставления онтологий

Основной количественный результат. После обработки неанглоязычных тезаурусов через WOKIE для добавления английских меток показатели F-меры систем сопоставления онтологий (LogMap, AML) существенно увеличились — в среднем на 22-35% в зависимости от языка и сложности тезауруса. Это доказывает основную полезность конвейера: он напрямую улучшает семантическую совместимость, делая неанглоязычные ресурсы обнаруживаемыми для англоцентричных инструментов OM.

Описание диаграммы (предполагаемое): Линейный график, показывающий F-меру сопоставления онтологий по оси Y в сравнении с различными методами перевода по оси X. Линия начинается низко для "Без перевода", слегка поднимается для "Один сервис МП" и резко достигает пика для "Конвейер WOKIE".

4.3 Анализ производительности и затрат

Благодаря селективному использованию LLM только для терминов с расхождениями (обычно 10-25% от общего числа), WOKIE сократил затраты на API LLM на 75-90% по сравнению с наивным подходом полного перевода на LLM, сохраняя при этом ~95% выгоды в качестве. Время обработки определялось вызовами LLM, но общий конвейер оставался выполнимым для тезаурусов среднего размера на стандартном оборудовании.

5. Аналитическая структура: Практический пример без кода

Сценарий: Европейская цифровая библиотека хранит немецкоязычный тезаурус по техникам средневекового искусства. Исследователи в Японии не могут найти соответствующие ресурсы, потому что их инструменты сопоставления онтологий обрабатывают только английские метки.

Применение WOKIE:

  1. Входные данные: Немецкий термин "Wandmalerei" (настенная живопись).
  2. Этап 1 (Внешний МП): Google Translate возвращает "wall painting." DeepL возвращает "mural painting." Microsoft Translator возвращает "wall painting." Есть расхождение ("mural" против "wall").
  3. Этап 2 (Обнаружение расхождений): Сходство между кандидатами ниже порога. Запускается доработка LLM.
  4. Этап 3 (Доработка LLM): Промпт: "Учитывая немецкий термин по истории искусства 'Wandmalerei' и кандидатов английских переводов ['wall painting', 'mural painting'], какой из них является наиболее точным и контекстуально уместным термином для SKOS-тезауруса по истории искусства? Учтите специфичность и распространённость использования в данной области."
  5. Вывод LLM: "В контексте тезаурусов по истории искусства, таких как Getty AAT, 'mural painting' является более точным и часто используемым дескриптором для 'Wandmalerei', так как он конкретно обозначает живопись, нанесённую непосредственно на стену или потолок."
  6. Результат: Концепт SKOS получает prefLabel "mural painting", что позволяет точно сопоставлять его с англоязычными онтологиями.

6. Будущие применения и направления исследований

  • За пределами перевода: Расширение WOKIE для предложения новых связанных концептов или altLabels на целевом языке, действуя как инструмент расширения тезауруса.
  • Интеграция с фундаментальными моделями: Использование визуально-языковых моделей (таких как CLIP) для перевода концептов на основе связанных изображений в цифровых коллекциях, а не только текста.
  • Цикл активного обучения: Включение обратной связи с участием человека для исправления выводов LLM, непрерывно улучшая предметно-ориентированную производительность конвейера.
  • Стандартизация оценки: Разработка специального набора тестов для оценки качества перевода SKOS/тезаурусов, выходя за рамки BLEU к метрикам, учитывающим сохранение иерархии и отношений.
  • Более широкие системы организации знаний (KOS): Применение принципа гибридной доработки МП+LLM к более сложным онтологиям (OWL) за пределами SKOS.

7. Ссылки

  1. Kraus, F., Blumenröhr, N., Tonne, D., & Streit, A. (2025). Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri. arXiv preprint arXiv:2507.19537.
  2. Miles, A., & Bechhofer, S. (2009). SKOS Simple Knowledge Organization System Reference. W3C Recommendation. https://www.w3.org/TR/skos-reference/
  3. Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
  4. Carroll, J. J., & Stickler, P. (2004). RDF Triples in the Semantic Web. IEEE Internet Computing.
  5. Getty Research Institute. (2024). Art & Architecture Thesaurus (AAT). https://www.getty.edu/research/tools/vocabularies/aat/
  6. Papineni, K., et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).

8. Экспертный анализ: Ключевая идея, логика, сильные и слабые стороны, практические выводы

Ключевая идея: WOKIE — это не просто ещё один инструмент перевода; это прагматичный, экономически осознанный движок совместимости для раздробленного мира данных культурного наследия. Его реальное новшество заключается в признании того, что идеальный ИИ-перевод для нишевых областей — это бесполезная трата сил, и вместо этого он использует LLM как высокоточный скальпель, а не как тупой молоток. В статье правильно определена коренная проблема в ЦГН: английский является де-факто языком запросов для связанных данных, что создаёт тихое исключение обширных неанглоязычных хранилищ знаний. Цель WOKIE — не поэтический перевод, а обеспечение обнаруживаемости, что является гораздо более достижимой и значимой целью.

Логика: Аргументация убедительна и хорошо структурирована. Она начинается с неоспоримой болевой точки (языковое исключение в ЦГН), отвергает очевидные решения (ручная работа невозможна, классический МП терпит неудачу из-за нехватки данных) и позиционирует LLM как потенциального, но несовершенного спасителя (стоимость, галлюцинации). Затем представляется элегантная гибридная модель: использовать дешёвые, быстрые API для 80% простых случаев и задействовать дорогие, умные LLM только в качестве арбитров для спорных 20%. Это "обнаружение расхождений" — умное ядро проекта. Оценка логически связывает качество перевода с конкретным, измеримым результатом — улучшением показателей сопоставления онтологий, доказывая практическую полезность за пределами субъективного качества перевода.

Сильные и слабые стороны:
Сильные стороны: Гибридная архитектура коммерчески продумана и технически обоснованна. Фокус на SKOS, стандарте W3C, обеспечивает немедленную релевантность. Открытый исходный код и дизайн для "обычного оборудования" резко снижают барьеры для внедрения. Оценка по производительности OM — это блестящий ход — она измеряет полезность, а не только эстетику.
Слабые стороны: В статье поверхностно рассматривается инженерия промптов, которая является решающим фактором для доработки LLM. Плохой промпт может сделать слой LLM бесполезным или вредным. Оценка, хотя и разумная, всё же несколько изолирована; как WOKIE сравнивается с дообучением небольшой открытой модели, такой как NLLB, на текстах ЦГН? Долгосрочная траектория стоимости API LLM является фактором риска для устойчивости, который не полностью рассмотрен.

Практические выводы:

  • Для учреждений ЦГН: Немедленно запустите пилотный проект WOKIE на одном ключевом неанглоязычном тезаурусе. ROI в виде улучшенного обнаружения ресурсов и совместимости с крупными хабами, такими как Europeana или DPLA, может быть значительным. Начните с бесплатных сервисов для валидации.
  • Для разработчиков: Внесите вклад в код WOKIE, особенно в создание библиотеки оптимизированных, настроенных на предметную область промптов для различных подразделов ЦГН (археология, музыковедение и т.д.).
  • Для финансирующих организаций: Финансируйте создание эталонного многоязычного терминологического набора данных для ЦГН, чтобы вывести область за рамки показателей BLEU. Поддерживайте проекты, интегрирующие вывод WOKIE в системы активного обучения.
  • Критический следующий шаг: Сообщество должно разработать модель управления для этих машинно-переведённых меток. Они должны быть чётко помечены как "машинно-дополненные" для сохранения научной целостности, следуя принципам происхождения данных, продвигаемым инициативами, такими как Research Data Alliance (RDA).

В заключение, WOKIE представляет собой тот тип прагматичного, ориентированного на конкретные случаи использования приложения ИИ, которое действительно изменит рабочие процессы. Оно не гонится за AGI; оно решает конкретную, болезненную проблему с помощью умного сочетания старой и новой технологий. Его успех будет измеряться не в баллах BLEU, а в количестве ранее невидимых исторических записей, которые внезапно станут находимыми для глобального исследователя.