WOKIE: 다국어 디지털 인문학을 위한 LLM 지원 SKOS 시소러스 번역

1. 서론 및 배경

디지털 인문학(DH)에서 지식 조직화는 통제 어휘, 시소러스, 온톨로지에 크게 의존하며, 이는 주로 단순 지식 조직 시스템(SKOS)을 사용하여 모델링됩니다. 이러한 자원에서 영어가 지배적이라는 점은 비원어민을 배제하고 다양한 문화와 언어를 충분히 반영하지 못하는 중요한 장벽으로 작용합니다. 다국어 시소러스는 포용적인 연구 인프라에 필수적이지만, 수동 생성 방식은 확장성이 없습니다. 기존의 기계 번역(MT) 방법은 도메인 특화 이중 언어 말뭉치가 부족하여 DH 맥락에서는 실패합니다. 본 논문은 WOKIE(국제 환경에서의 지식 관리를 위한 잘 번역된 옵션)를 소개합니다. 이는 외부 번역 서비스와 대규모 언어 모델(LLM)을 활용한 표적 정제를 결합한 오픈소스, 모듈식 파이프라인으로, SKOS 시소러스 번역을 자동화하여 품질, 확장성, 비용 간의 균형을 맞춥니다.

2. WOKIE 파이프라인: 아키텍처 및 워크플로우

WOKIE는 MT나 LLM에 대한 사전 전문 지식이 필요 없는 구성 가능한 다단계 파이프라인으로 설계되었습니다. 일상적인 하드웨어에서 실행되며 무료 번역 서비스를 활용할 수 있습니다.

2.1 핵심 구성 요소

파이프라인은 세 가지 주요 단계로 구성됩니다:

초기 번역: SKOS 시소러스를 파싱하고, 그 레이블(prefLabel, altLabel)을 여러 구성 가능한 외부 번역 서비스(예: Google 번역, DeepL API)로 전송합니다.
후보 집계 및 불일치 감지: 각 용어에 대한 번역 결과를 수집합니다. 주요 혁신은 서비스 간의 "불일치"를 감지하는 것입니다. 구성 가능한 임계값(예: N개의 서비스의 번역 결과가 유사도 점수를 초과하여 다를 경우)이 충족되면 정제 단계가 트리거됩니다.
LLM 기반 정제: 초기 번역 결과가 불일치하는 용어의 경우, 후보 번역들과 원본 용어가 LLM(예: GPT-4, Llama 3)에 입력됩니다. 이때 가능한 최상의 번역과 그 근거를 요청하는 신중하게 구성된 프롬프트가 함께 제공됩니다.

2.2 LLM 기반 정제 로직

LLM의 선택적 사용은 WOKIE 설계의 핵심입니다. 모든 용어를 LLM으로 번역하는(비용이 많이 들고, 느리며, 환각 가능성이 있는) 대신, LLM은 어려운 사례에 대한 중재자로만 배치됩니다. 이 하이브리드 접근 방식은 직관적인 번역에는 표준 MT API의 속도와 저비용을 활용하고, 합의가 부족한 용어에 대해서만 LLM 연산을 예약함으로써 품질과 자원 소비 간의 균형을 최적화합니다.

3. 기술적 세부사항 및 방법론

WOKIE는 Python으로 구현되었으며, SKOS 파싱을 위해 RDFLib와 같은 라이브러리를 활용합니다. 시스템의 효능은 지능형 라우팅 메커니즘에 달려 있습니다.

3.1 번역 품질 평가 지표

번역 품질을 평가하기 위해 저자들은 자동화된 지표와 전문가의 인간 평가를 결합하여 사용했습니다. 자동 점수화를 위해 MT 연구에서 흔히 사용되는 BLEU 점수를 적용했지만, 짧은 용어구에 대한 한계를 지적했습니다. 핵심 평가는 LogMap 및 AML과 같은 표준 OM 시스템을 사용하여 온톨로지 매칭(OM) 성능의 향상에 초점을 맞췄습니다. 가설은 더 높은 품질의 번역이 더 나은 정렬 점수로 이어진다는 것이었습니다. 번역 후 시소러스 $T$에 대한 성능 향상 $G$는 다음과 같이 공식화할 수 있습니다:

$G(T) = \frac{Score_{matched}(T_{translated}) - Score_{matched}(T_{original})}{Score_{matched}(T_{original})}$

여기서 $Score_{matched}$는 온톨로지 매칭 시스템의 F-측정값입니다.

4. 실험 결과 및 평가

평가는 15개 언어에 걸친 여러 DH 시소러스를 대상으로 다양한 매개변수, 번역 서비스 및 LLM을 테스트했습니다.

주요 실험 통계

평가된 시소러스: 다수 (예: Getty AAT, GND)
언어: 독일어, 프랑스어, 스페인어, 중국어, 아랍어 등 15개
테스트된 LLM: GPT-4, GPT-3.5-Turbo, Llama 3 70B
기준선 서비스: Google 번역, DeepL API

4.1 언어별 번역 품질

인간 평가 결과, WOKIE 파이프라인(외부 MT + LLM 정제)은 단일 외부 번역 서비스만 사용하는 것보다 지속적으로 더 우수한 성능을 보였습니다. 품질 향상은 다음에서 가장 두드러졌습니다:

저자원 언어: 표준 API가 종종 실패하는 경우.
도메인 특화 용어: 문화적 또는 역사적 뉘앙스가 있는 용어(예: "fresco secco," "codex")로, 일반 MT는 문자 그대로이지만 부정확한 번역을 제공하는 경우.

차트 설명 (가상): 네 가지 조건(Google 번역 단독, DeepL 단독, GPT-3.5 정제 WOKIE, GPT-4 정제 WOKIE)에 대한 BLEU 점수(또는 인간 평가 점수)를 비교하는 막대 그래프. WOKIE 구성의 막대는 특히 영어-아랍어 또는 영어-중국어와 같은 언어 쌍에서 상당히 높습니다.

4.2 온톨로지 매칭 성능 향상

주요 정량적 결과입니다. 비영어 시소러스를 WOKIE로 처리하여 영어 레이블을 추가한 후, 온톨로지 매칭 시스템(LogMap, AML)의 F-측정값이 상당히 증가했습니다—언어와 시소러스 복잡도에 따라 평균 22-35% 향상되었습니다. 이는 파이프라인의 핵심 유용성을 입증합니다: 비영어 자원이 영어 중심 OM 도구에서 발견 가능하도록 만들어 의미적 상호운용성을 직접 향상시킵니다.

차트 설명 (가상): y축에 온톨로지 매칭의 F-측정값, x축에 다른 번역 방법을 나타내는 선 그래프. 선은 "번역 없음"에서 낮게 시작하여 "단일 MT 서비스"에서 약간 상승하고, "WOKIE 파이프라인"에서 급격히 정점에 도달합니다.

4.3 성능 및 비용 분석

불일치 용어(전체의 약 10-25%)에 대해서만 LLM을 선택적으로 사용함으로써, WOKIE는 순진한 전체 LLM 번역 접근 방식에 비해 LLM API 비용을 75-90% 절감하면서도 약 95%의 품질 이점을 유지했습니다. 처리 시간은 LLM 호출이 지배적이었지만, 전체 파이프라인은 표준 하드웨어에서 중간 규모 시소러스에 대해 실행 가능했습니다.

5. 분석 프레임워크: 비코드 사례 연구

시나리오: 유럽의 디지털 도서관이 중세 미술 기법에 대한 독일어 시소러스를 보유하고 있습니다. 일본의 연구자들은 그들의 온톨로지 매칭 도구가 영어 레이블만 처리하기 때문에 관련 자원을 찾을 수 없습니다.

WOKIE 적용:

입력: 독일어 용어 "Wandmalerei" (벽화).
1단계 (외부 MT): Google 번역은 "wall painting"을 반환합니다. DeepL은 "mural painting"을 반환합니다. Microsoft 번역기는 "wall painting"을 반환합니다. 불일치가 있습니다("mural" 대 "wall").
2단계 (불일치 감지): 후보 간 유사도가 임계값 미만입니다. LLM 정제가 트리거됩니다.
3단계 (LLM 정제): 프롬프트: "독일어 미술사 용어 'Wandmalerei'와 영어 번역 후보 ['wall painting', 'mural painting']가 주어졌을 때, 미술사 분야 SKOS 시소러스에 가장 정확하고 맥락에 맞는 용어는 무엇입니까? 해당 분야의 특수성과 일반적인 사용법을 고려하십시오."
LLM 출력: "Getty AAT와 같은 미술사 시소러스 맥락에서 'mural painting'은 'Wandmalerei'에 대한 더 정밀하고 일반적으로 사용되는 기술어입니다. 이는 벽이나 천장에 직접 적용된 그림을 특별히 지칭하기 때문입니다."
결과: SKOS 개념은 prefLabel "mural painting"을 얻게 되어, 영어 온톨로지와의 정확한 매칭이 가능해집니다.

6. 향후 응용 및 연구 방향

번역을 넘어서: WOKIE를 확장하여 대상 언어로 새로운 관련 개념이나 altLabel을 제안하는 시소러스 증강 도구 역할을 하도록 합니다.
기초 모델과의 통합: 비전-언어 모델(예: CLIP)을 활용하여 텍스트뿐만 아니라 디지털 컬렉션의 관련 이미지를 기반으로 개념을 번역합니다.
능동 학습 루프: 인간의 피드백을 통합하여 LLM 출력을 수정하고, 파이프라인의 도메인 특화 성능을 지속적으로 개선합니다.
평가의 표준화: SKOS/시소러스 번역 품질 평가를 위한 전용 벤치마크 제품군을 개발하여 BLEU를 넘어 계층적 및 관계적 보존을 포착하는 지표로 이동합니다.
더 넓은 지식 조직 시스템(KOS): 하이브리드 MT+LLM 정제 원칙을 SKOS를 넘어 더 복잡한 온톨로지(OWL)에 적용합니다.

7. 참고문헌

Kraus, F., Blumenröhr, N., Tonne, D., & Streit, A. (2025). Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri. arXiv preprint arXiv:2507.19537.
Miles, A., & Bechhofer, S. (2009). SKOS Simple Knowledge Organization System Reference. W3C Recommendation. https://www.w3.org/TR/skos-reference/
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
Carroll, J. J., & Stickler, P. (2004). RDF Triples in the Semantic Web. IEEE Internet Computing.
Getty Research Institute. (2024). Art & Architecture Thesaurus (AAT). https://www.getty.edu/research/tools/vocabularies/aat/
Papineni, K., et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).

8. 전문가 분석: 핵심 통찰, 논리적 흐름, 장단점, 실행 가능한 통찰

핵심 통찰: WOKIE는 단순한 또 다른 번역 도구가 아닙니다. 이는 분열된 문화유산 데이터 세계를 위한 실용적이고 비용을 고려한 상호운용성 엔진입니다. 진정한 혁신은 틈새 도메인에 대해 완벽한 AI 번역은 어리석은 시도라는 점을 인식하고, 대신 LLM을 무딘 망치가 아닌 고정밀 메스로 사용한다는 데 있습니다. 이 논문은 DH의 근본 문제를 올바르게 지적합니다: 영어는 링크드 데이터의 사실상의 질의 언어로, 방대한 비영어 지식 저장소를 조용히 배제하고 있습니다. WOKIE의 목표는 시적인 번역이 아니라 발견을 가능하게 하는 것이며, 이는 훨씬 더 달성 가능하고 영향력 있는 목표입니다.

논리적 흐름: 논증은 설득력 있고 구조화되어 있습니다. 부인할 수 없는 문제점(DH에서의 언어적 배제)으로 시작하여, 명백한 해결책(수작업은 불가능, 고전적 MT는 데이터 부족으로 실패)을 논파하고, 잠재적이지만 결함이 있는 구원자로서 LLM(비용, 환각)을 위치시킵니다. 그런 다음 우아한 하이브리드 모델을 소개합니다: 쉬운 80%의 경우에는 저렴하고 빠른 API를 사용하고, 논쟁의 여지가 있는 20%의 경우에만 비싸고 똑똑한 LLM을 중재자로 배치합니다. 이 "불일치 감지"가 프로젝트의 영리한 핵심입니다. 평가는 번역 품질을 개선된 온톨로지 매칭 점수라는 구체적이고 측정 가능한 결과와 논리적으로 연결하여, 주관적인 번역 품질을 넘어 실제 유용성을 입증합니다.

장단점:
장점: 하이브리드 아키텍처는 상업적으로 현명하고 기술적으로 건전합니다. W3C 표준인 SKOS에 초점을 맞춤으로써 즉각적인 관련성을 보장합니다. 오픈소스 특성과 "일상적인 하드웨어"를 위한 설계는 채택 장벽을 극적으로 낮춥니다. OM 성능에 대한 평가는 미학이 아닌 유용성을 측정하는 탁월한 선택입니다.
단점: 논문은 LLM 정제의 성패를 좌우하는 프롬프트 엔지니어링을 간과하고 있습니다. 나쁜 프롬프트는 LLM 계층을 쓸모없거나 해롭게 만들 수 있습니다. 평가는 합리적이지만 여전히 다소 고립되어 있습니다; WOKIE는 DH 텍스트에 대해 NLLB와 같은 소규모 오픈소스 모델을 미세 조정하는 것과 어떻게 비교됩니까? LLM API의 장기 비용 추세는 지속 가능성에 대한 완전히 다루지 않은 위험 요소입니다.

실행 가능한 통찰:

DH 기관을 위해: 하나의 주요 비영어 시소러스에 대해 즉시 WOKIE를 시범 운영하십시오. 개선된 자원 발견 및 Europeana나 DPLA와 같은 주요 허브와의 정렬에서 ROI가 상당할 수 있습니다. 검증을 위해 무료 티어 서비스로 시작하십시오.
개발자를 위해: WOKIE 코드베이스에 기여하십시오, 특히 고고학, 음악학 등 다양한 DH 하위 분야에 최적화되고 도메인에 맞춰진 프롬프트 라이브러리를 만드는 데 중점을 두십시오.
자금 지원자를 위해: BLEU 점수를 넘어서기 위한 금 표준, 다국어 DH 용어 벤치마크 구축을 지원하십시오. WOKIE의 출력을 능동 학습 시스템에 통합하는 프로젝트를 지원하십시오.
중요한 다음 단계: 커뮤니티는 이러한 기계 번역 레이블에 대한 거버넌스 모델을 개발해야 합니다. 연구 데이터 얼라이언스(RDA)와 같은 이니셔티브가 주창하는 데이터 출처 원칙을 따라 학문적 정직성을 유지하기 위해 "기계 보강"으로 명확하게 태그를 지정해야 합니다.

결론적으로, WOKIE는 실제로 워크플로우를 변화시킬 실용적이고 사용 사례 중심의 AI 응용 프로그램을 대표합니다. 이는 AGI를 좇지 않고, 오래된 기술과 새로운 기술의 영리한 조합으로 구체적이고 고통스러운 문제를 해결합니다. 그 성공은 BLEU 점수가 아니라, 갑자기 글로벌 연구자에게 발견 가능해진 이전에는 보이지 않았던 역사적 기록의 수로 측정될 것입니다.