WOKIE：運用大型語言模型輔助翻譯SKOS主題詞表，促進多語言數位人文學發展

1. 引言與動機

數位人文學中的知識組織高度依賴受控詞彙表、主題詞表與本體，主要使用簡單知識組織系統進行建模。由於這些資源普遍以英文為主，對非母語使用者造成障礙，並使多元文化與語言代表性不足，形成重大阻礙。多語言主題詞表對於建立包容性的研究基礎設施至關重要，但手動創建難以擴展。傳統機器翻譯方法因缺乏領域特定的雙語語料庫，在數位人文情境中效果不彰。本文介紹WOKIE（國際環境中知識管理的優質翻譯選項），這是一個開源、模組化的流程，結合外部翻譯服務與大型語言模型的針對性精煉，以自動化翻譯SKOS主題詞表，在品質、可擴展性與成本之間取得平衡。

2. WOKIE流程：架構與工作流

WOKIE被設計為一個可配置的多階段流程，無需事先具備MT或LLM專業知識。它可在日常硬體上執行，並能利用免費翻譯服務。

2.1 核心元件

該流程包含三個主要階段：

初始翻譯： 解析SKOS主題詞表，並將其標籤（首選標籤、替代標籤）發送至多個可配置的外部翻譯服務（例如Google翻譯、DeepL API）。
候選彙總與分歧偵測： 收集每個術語的翻譯。一個關鍵創新是偵測服務之間的「分歧」。當分歧超過可配置的閾值（例如，若來自N個服務的翻譯相似度分數差異過大）時，將觸發精煉階段。
基於LLM的精煉： 對於初始翻譯存在分歧的術語，將候選翻譯與原始術語輸入給LLM（例如GPT-4、Llama 3），並附上精心設計的提示，要求其提供最佳翻譯及理由。

2.2 基於LLM的精煉邏輯

選擇性使用LLM是WOKIE設計的核心。與使用LLM翻譯每個術語（成本高、速度慢、可能產生幻覺）不同，LLM僅作為困難案例的仲裁者。這種混合方法利用標準MT API的速度和低成本處理簡單翻譯，而將LLM的計算資源保留給缺乏共識的術語，從而優化了品質與資源消耗之間的權衡。

3. 技術細節與方法論

WOKIE以Python實作，利用RDFLib等函式庫進行SKOS解析。系統的效能取決於其智慧路由機制。

3.1 翻譯品質評估指標

為了評估翻譯品質，作者結合了自動化指標與專家人工評估。在自動評分方面，他們採用了MT研究中常用的BLEU分數，但也指出其對短術語片語的局限性。核心評估聚焦於本體匹配效能的提升，使用LogMap和AML等標準OM系統。假設是更高品質的翻譯將帶來更好的對齊分數。主題詞表$T$在翻譯後的效能增益$G$可表示為：

$G(T) = \frac{Score_{matched}(T_{translated}) - Score_{matched}(T_{original})}{Score_{matched}(T_{original})}$

其中$Score_{matched}$是本體匹配系統的F-measure分數。

4. 實驗結果與評估

評估涵蓋了15種語言的多個數位人文主題詞表，測試了不同的參數、翻譯服務和LLM。

關鍵實驗統計數據

評估的主題詞表： 多個（例如Getty AAT、GND）
語言： 15種，包括德語、法語、西班牙語、中文、阿拉伯語
測試的LLM： GPT-4、GPT-3.5-Turbo、Llama 3 70B
基準服務： Google翻譯、DeepL API

4.1 跨語言翻譯品質

人工評估顯示，WOKIE流程（外部MT + LLM精煉）的表現持續優於單獨使用任何單一外部翻譯服務。品質提升在以下情況最為顯著：

低資源語言： 標準API通常效果不佳的語言。
領域特定術語： 具有文化或歷史細微差別的術語（例如「濕壁畫」、「手抄本」），通用MT會提供字面但不準確的翻譯。

圖表描述（示意）： 一個長條圖，比較四種情況下的BLEU分數（或人工評估分數）：單獨使用Google翻譯、單獨使用DeepL、使用GPT-3.5精煉的WOKIE、使用GPT-4精煉的WOKIE。WOKIE配置的長條明顯更高，尤其是在英語-阿拉伯語或英語-中文等語言對中。

4.2 本體匹配效能提升

主要的量化結果。將非英語主題詞表透過WOKIE處理以添加英文標籤後，本體匹配系統（LogMap、AML）的F-measure分數大幅提升——平均提升22-35%，具體取決於語言和主題詞表的複雜度。這證明了該流程的核心效用：透過使非英語資源能被以英語為中心的OM工具發現，直接增強了語義互通性。

圖表描述（示意）： 一個折線圖，y軸顯示本體匹配的F-measure，x軸顯示不同的翻譯方法。折線在「無翻譯」時起點低，在「單一MT服務」時略有上升，在「WOKIE流程」時達到高峰。

4.3 效能與成本分析

透過選擇性地僅對存在分歧的術語（通常佔總數的10-25%）使用LLM，與天真的全LLM翻譯方法相比，WOKIE將LLM API成本降低了75-90%，同時保留了約95%的品質效益。處理時間主要由LLM呼叫主導，但整體流程對於標準硬體上的中型主題詞表仍然是可行的。

5. 分析框架：非程式碼案例研究

情境： 一家歐洲數位圖書館擁有一個關於中世紀藝術技術的德語主題詞表。日本的研究人員無法找到相關資源，因為他們的本體匹配工具只處理英文標籤。

WOKIE應用：

輸入： 德語術語「Wandmalerei」（牆面繪畫）。
階段1（外部MT）： Google翻譯返回「wall painting」。DeepL返回「mural painting」。Microsoft翻譯返回「wall painting」。存在分歧（「mural」與「wall」）。
階段2（分歧偵測）： 候選翻譯之間的相似度低於閾值。觸發LLM精煉。
階段3（LLM精煉）： 提示：「給定德語藝術史術語『Wandmalerei』以及候選英文翻譯['wall painting', 'mural painting']，哪一個是藝術史SKOS主題詞表中最準確且語境最合適的術語？請考慮該領域的特指性和常用性。」
LLM輸出： 「在像Getty AAT這樣的藝術史主題詞表語境中，『mural painting』是『Wandmalerei』更精確且常用的描述詞，因為它特指直接應用於牆壁或天花板的繪畫。」
結果： 該SKOS概念獲得首選標籤「mural painting」，從而能與英語本體進行準確匹配。

6. 未來應用與研究方向

超越翻譯： 擴展WOKIE以建議目標語言中的新相關概念或替代標籤，使其成為主題詞表增強工具。
與基礎模型整合： 利用視覺-語言模型（如CLIP），基於數位館藏中的相關圖像而不僅僅是文字來翻譯概念。
主動學習循環： 納入人機協作回饋以修正LLM輸出，持續提升流程的領域特定效能。
評估標準化： 開發專用的基準測試套件，用於評估SKOS/主題詞表翻譯品質，超越BLEU分數，採用能捕捉層級和關係保留的指標。
更廣泛的知識組織系統： 將混合MT+LLM精煉原則應用於SKOS之外更複雜的本體（如OWL）。

7. 參考文獻

Kraus, F., Blumenröhr, N., Tonne, D., & Streit, A. (2025). Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri. arXiv preprint arXiv:2507.19537.
Miles, A., & Bechhofer, S. (2009). SKOS Simple Knowledge Organization System Reference. W3C Recommendation. https://www.w3.org/TR/skos-reference/
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
Carroll, J. J., & Stickler, P. (2004). RDF Triples in the Semantic Web. IEEE Internet Computing.
Getty Research Institute. (2024). Art & Architecture Thesaurus (AAT). https://www.getty.edu/research/tools/vocabularies/aat/
Papineni, K., et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).

8. 專家分析：核心洞見、邏輯流程、優缺點、可行建議

核心洞見： WOKIE不僅僅是另一個翻譯工具；它是針對文化遺產資料碎片化世界的一個務實、注重成本的互通性引擎。其真正的創新在於認識到，對於利基領域而言，追求完美的AI翻譯是徒勞的，相反地，它將LLM用作高精度的「手術刀」，而非「鈍錘」。本文正確指出了數位人文的根本問題：英語是連結資料的事實上的查詢語言，這導致了大量非英語知識庫被無聲地排除在外。WOKIE的目標不是詩意的翻譯，而是實現發現，這是一個更可實現且更具影響力的目標。

邏輯流程： 論證具有說服力且結構良好。它從一個無可否認的痛點（數位人文中的語言排除）開始，駁斥了明顯的解決方案（手動工作不可行，經典MT因資料稀缺而失敗），並將LLM定位為潛在但有缺陷的救星（成本、幻覺）。接著，它引入了優雅的混合模型：對80%的簡單案例使用便宜、快速的API，而僅將昂貴、智慧的LLM部署為有爭議的20%案例的仲裁者。這種「分歧偵測」是該專案聰明的核心。評估邏輯上將翻譯品質與改進的本體匹配分數這一具體、可衡量的結果聯繫起來，證明了超越主觀翻譯品質的實際效用。

優缺點：
優點： 混合架構在商業上明智且在技術上穩健。對W3C標準SKOS的關注確保了即時相關性。開源性質及為「日常硬體」設計的方針大幅降低了採用門檻。基於OM效能的評估是一個妙招——它衡量的是效用，而不僅僅是美觀度。
缺點： 本文輕描淡寫地帶過了提示工程，而這是LLM精煉成敗的關鍵因素。糟糕的提示可能使LLM層變得無用甚至有害。評估雖然合理，但仍有些孤立；WOKIE與在數位人文文本上微調小型開源模型（如NLLB）相比如何？LLM API的長期成本趨勢是可持續性的風險因素，但未得到充分討論。

可行建議：

對數位人文機構： 立即在一個關鍵的非英語主題詞表上試行WOKIE。在改善資源發現以及與Europeana或DPLA等主要樞紐對齊方面的投資回報率可能相當可觀。可從免費層級服務開始驗證。
對開發者： 貢獻於WOKIE程式碼庫，特別是創建一個針對不同數位人文子領域（考古學、音樂學等）優化、領域調校的提示庫。
對資助者： 資助創建一個黃金標準的多語言數位人文術語基準，以推動該領域超越BLEU分數。支持將WOKIE輸出整合到主動學習系統中的專案。
關鍵下一步： 社群必須為這些機器翻譯的標籤制定治理模型。應遵循研究資料聯盟等倡議所倡導的資料溯源原則，將其明確標記為「機器輔助生成」，以維護學術完整性。

總而言之，WOKIE代表了那種務實、以使用案例驅動的AI應用，它將真正改變工作流程。它不追求通用人工智慧；而是用新舊技術的巧妙結合來解決一個具體、痛苦的難題。它的成功將不是以BLEU分數來衡量，而是以全球研究人員突然能夠發現的、先前不可見的歷史記錄數量來衡量。