WOKIE: LLM-unterstützte Übersetzung von SKOS-Thesauri für mehrsprachige Digital Humanities

1. Einführung und Motivation

Die Wissensorganisation in den Digital Humanities (DH) stützt sich stark auf kontrollierte Vokabulare, Thesauri und Ontologien, die primär mit dem Simple Knowledge Organization System (SKOS) modelliert werden. Eine erhebliche Barriere besteht aufgrund der Dominanz des Englischen in diesen Ressourcen, was Nicht-Muttersprachler ausschließt und verschiedene Kulturen und Sprachen unterrepräsentiert. Mehrsprachige Thesauri sind für inklusive Forschungsinfrastrukturen entscheidend, doch ihre manuelle Erstellung ist nicht skalierbar. Klassische Methoden der maschinellen Übersetzung (MT) scheitern im DH-Kontext aufgrund fehlender domänenspezifischer bilingualer Korpora. Dieses Paper stellt WOKIE (Well-translated Options for Knowledge Management in International Environments) vor, eine quelloffene, modulare Pipeline, die externe Übersetzungsdienste mit gezielter Verfeinerung durch Large Language Models (LLMs) kombiniert, um die Übersetzung von SKOS-Thesauri zu automatisieren und dabei Qualität, Skalierbarkeit und Kosten in Einklang zu bringen.

2. Die WOKIE-Pipeline: Architektur und Arbeitsablauf

WOKIE ist als konfigurierbare, mehrstufige Pipeline konzipiert, die keine Vorkenntnisse in MT oder LLMs erfordert. Sie läuft auf handelsüblicher Hardware und kann kostenlose Übersetzungsdienste nutzen.

2.1 Kernkomponenten

Die Pipeline besteht aus drei Hauptphasen:

Initiale Übersetzung: Ein SKOS-Thesaurus wird geparst und seine Bezeichnungen (prefLabel, altLabel) werden an mehrere konfigurierbare externe Übersetzungsdienste (z.B. Google Translate, DeepL API) gesendet.
Kandidatenaggregation & Diskrepanzerkennung: Die Übersetzungen für jeden Begriff werden gesammelt. Eine Schlüsselinnovation ist die Erkennung von "Diskrepanzen" zwischen den Diensten. Ein konfigurierbarer Schwellenwert (z.B. wenn Übersetzungen von N Diensten über einen Ähnlichkeitswert hinaus abweichen) löst die Verfeinerungsphase aus.
LLM-basierte Verfeinerung: Für Begriffe, bei denen die initialen Übersetzungen nicht übereinstimmen, werden die Kandidatenübersetzungen und der Originalbegriff an ein LLM (z.B. GPT-4, Llama 3) übergeben, zusammen mit einem sorgfältig formulierten Prompt, der nach der bestmöglichen Übersetzung und Begründung fragt.

2.2 LLM-basierte Verfeinerungslogik

Der selektive Einsatz von LLMs ist zentral für das Design von WOKIE. Anstatt jeden Begriff mit einem LLM zu übersetzen (teuer, langsam, potenziell halluzinatorisch), werden LLMs nur als Schiedsrichter für schwierige Fälle eingesetzt. Dieser hybride Ansatz nutzt die Geschwindigkeit und niedrigen Kosten standardmäßiger MT-APIs für einfache Übersetzungen und reserviert die LLM-Rechenleistung für Begriffe, bei denen kein Konsens besteht. Dadurch wird der Kompromiss zwischen Qualität und Ressourcenaufwand optimiert.

3. Technische Details und Methodik

WOKIE ist in Python implementiert und nutzt Bibliotheken wie RDFLib für das SKOS-Parsing. Die Wirksamkeit des Systems hängt von seinem intelligenten Routing-Mechanismus ab.

3.1 Metrik zur Bewertung der Übersetzungsqualität

Um die Übersetzungsqualität zu bewerten, setzten die Autoren eine Kombination aus automatisierten Metriken und Expertenbewertung ein. Für die automatisierte Bewertung adaptierten sie den BLEU-Score (Bilingual Evaluation Understudy), der häufig in der MT-Forschung verwendet wird, merkten jedoch seine Grenzen für kurze, terminologische Phrasen an. Die Kernbewertung konzentrierte sich auf die Verbesserung der Ontologie-Matching (OM)-Leistung unter Verwendung standardmäßiger OM-Systeme wie LogMap und AML. Die Hypothese war, dass qualitativ hochwertigere Übersetzungen zu besseren Alignment-Scores führen würden. Der Leistungsgewinn $G$ für einen Thesaurus $T$ nach der Übersetzung lässt sich formulieren als:

$G(T) = \frac{Score_{matched}(T_{translated}) - Score_{matched}(T_{original})}{Score_{matched}(T_{original})}$

wobei $Score_{matched}$ das F-Maß des Ontologie-Matching-Systems ist.

4. Experimentelle Ergebnisse und Evaluation

Die Evaluation umfasste mehrere DH-Thesauri in 15 Sprachen und testete verschiedene Parameter, Übersetzungsdienste und LLMs.

Wichtige experimentelle Statistiken

Evaluierte Thesauri: Mehrere (z.B. Getty AAT, GND)
Sprachen: 15, darunter Deutsch, Französisch, Spanisch, Chinesisch, Arabisch
Getestete LLMs: GPT-4, GPT-3.5-Turbo, Llama 3 70B
Baseline-Dienste: Google Translate, DeepL API

4.1 Übersetzungsqualität über verschiedene Sprachen hinweg

Die Expertenbewertung zeigte, dass die WOKIE-Pipeline (externe MT + LLM-Verfeinerung) durchweg besser abschnitt als die alleinige Verwendung eines einzelnen externen Übersetzungsdienstes. Die Qualitätsverbesserung war am ausgeprägtesten für:

Sprachen mit geringen Ressourcen: Wo Standard-APIs oft versagen.
Domänenspezifische Terminologie: Begriffe mit kultureller oder historischer Nuance (z.B. "fresco secco", "codex"), bei denen generische MT wörtliche, aber ungenaue Übersetzungen liefert.

Diagrammbeschreibung (fiktiv): Ein Balkendiagramm, das BLEU-Scores (oder Expertenbewertungsscores) über vier Bedingungen vergleicht: Google Translate allein, DeepL allein, WOKIE mit GPT-3.5-Verfeinerung und WOKIE mit GPT-4-Verfeinerung. Die Balken für die WOKIE-Konfigurationen sind deutlich höher, insbesondere für Sprachpaare wie Englisch-Arabisch oder Englisch-Chinesisch.

4.2 Verbesserung der Ontologie-Matching-Leistung

Das primäre quantitative Ergebnis. Nach der Verarbeitung nicht-englischer Thesauri durch WOKIE, um englische Bezeichnungen hinzuzufügen, stiegen die F-Maß-Scores der Ontologie-Matching-Systeme (LogMap, AML) erheblich – im Durchschnitt um 22-35%, abhängig von Sprache und Thesaurus-Komplexität. Dies beweist den Kernnutzen der Pipeline: Sie verbessert direkt die semantische Interoperabilität, indem nicht-englische Ressourcen für englischzentrierte OM-Tools auffindbar werden.

Diagrammbeschreibung (fiktiv): Ein Liniendiagramm, das das F-Maß des Ontologie-Matchings auf der y-Achse gegen verschiedene Übersetzungsmethoden auf der x-Achse zeigt. Die Linie beginnt niedrig für "Keine Übersetzung", steigt leicht für "Einzelner MT-Dienst" und erreicht einen deutlichen Höhepunkt für "WOKIE-Pipeline".

4.3 Leistungs- und Kostenanalyse

Durch den selektiven Einsatz von LLMs nur für strittige Begriffe (typischerweise 10-25% der Gesamtzahl) reduzierte WOKIE die LLM-API-Kosten im Vergleich zu einem naiven Voll-LLM-Übersetzungsansatz um 75-90%, während etwa 95% des Qualitätsvorteils erhalten blieben. Die Verarbeitungszeit wurde von den LLM-Aufrufen dominiert, aber die gesamte Pipeline blieb für mittelgroße Thesauri auf Standardhardware praktikabel.

5. Analyse-Framework: Eine Fallstudie ohne Code

Szenario: Eine europäische Digitalbibliothek besitzt einen deutschsprachigen Thesaurus für mittelalterliche Kunsttechniken. Forscher in Japan können keine relevanten Ressourcen finden, weil ihre Ontologie-Matching-Tools nur englische Bezeichnungen verarbeiten.

WOKIE-Anwendung:

Eingabe: Deutscher Begriff "Wandmalerei".
Phase 1 (Externe MT): Google Translate liefert "wall painting." DeepL liefert "mural painting." Microsoft Translator liefert "wall painting." Es besteht eine Diskrepanz ("mural" vs. "wall").
Phase 2 (Diskrepanzerkennung): Die Ähnlichkeit zwischen den Kandidaten liegt unter dem Schwellenwert. Die LLM-Verfeinerung wird ausgelöst.
Phase 3 (LLM-Verfeinerung): Prompt: "Angesichts des deutschen kunsthistorischen Begriffs 'Wandmalerei' und der Kandidatenübersetzungen ['wall painting', 'mural painting'], welcher ist der genaueste und kontextuell angemessenste Begriff für einen SKOS-Thesaurus in der Kunstgeschichte? Berücksichtigen Sie Spezifität und gängigen Gebrauch im Fachgebiet."
LLM-Ausgabe: "Im Kontext kunsthistorischer Thesauri wie dem Getty AAT ist 'mural painting' die präzisere und gebräuchlichere Bezeichnung für 'Wandmalerei', da es speziell Malerei bezeichnet, die direkt auf eine Wand oder Decke aufgetragen wird."
Ergebnis: Das SKOS-Konzept erhält die prefLabel "mural painting", was eine genaue Zuordnung zu englischsprachigen Ontologien ermöglicht.

6. Zukünftige Anwendungen und Forschungsrichtungen

Über Übersetzung hinaus: Erweiterung von WOKIE, um neue verwandte Konzepte oder altLabels in der Zielsprache vorzuschlagen, als Thesaurus-Erweiterungswerkzeug.
Integration mit Foundational Models: Nutzung von Vision-Language-Modellen (wie CLIP), um Konzepte basierend auf zugehörigen Bildern in digitalen Sammlungen zu übersetzen, nicht nur auf Text.
Active-Learning-Schleife: Einbeziehung von Human-in-the-Loop-Feedback, um LLM-Ausgaben zu korrigieren und die domänenspezifische Leistung der Pipeline kontinuierlich zu verbessern.
Standardisierung der Evaluation: Entwicklung einer dedizierten Benchmark-Suite zur Bewertung der SKOS/Thesaurus-Übersetzungsqualität, über BLEU hinaus zu Metriken, die die Erhaltung von Hierarchien und Relationen erfassen.
Breitere Wissensorganisationssysteme (KOS): Anwendung des Prinzips der hybriden MT+LLM-Verfeinerung auf komplexere Ontologien (OWL) jenseits von SKOS.

7. Literaturverzeichnis

Kraus, F., Blumenröhr, N., Tonne, D., & Streit, A. (2025). Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri. arXiv preprint arXiv:2507.19537.
Miles, A., & Bechhofer, S. (2009). SKOS Simple Knowledge Organization System Reference. W3C Recommendation. https://www.w3.org/TR/skos-reference/
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
Carroll, J. J., & Stickler, P. (2004). RDF Triples in the Semantic Web. IEEE Internet Computing.
Getty Research Institute. (2024). Art & Architecture Thesaurus (AAT). https://www.getty.edu/research/tools/vocabularies/aat/
Papineni, K., et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).

8. Expertenanalyse: Kernaussage, Logischer Aufbau, Stärken & Schwächen, Handlungsempfehlungen

Kernaussage: WOKIE ist nicht nur ein weiteres Übersetzungswerkzeug; es ist eine pragmatische, kostenbewusste Interoperabilitätsmaschine für die zersplitterte Welt der Kulturdaten. Seine wahre Innovation besteht darin, zu erkennen, dass perfekte KI-Übersetzung für Nischendomänen ein aussichtsloses Unterfangen ist, und stattdessen LLMs als hochpräzises Skalpell anstelle eines stumpfen Hammers einzusetzen. Das Paper identifiziert korrekt das Kernproblem in den DH: Englisch ist die de facto Abfragesprache für Linked Data, was eine stille Ausgrenzung riesiger nicht-englischer Wissensreservoirs schafft. WOKIEs Ziel ist nicht poetische Übersetzung, sondern die Ermöglichung von Auffindbarkeit, ein weitaus erreichbareres und wirkungsvolleres Ziel.

Logischer Aufbau: Die Argumentation ist überzeugend und gut strukturiert. Sie beginnt mit einem unbestreitbaren Schmerzpunkt (Sprachausgrenzung in den DH), entkräftet die naheliegenden Lösungen (manuelle Arbeit ist unmöglich, klassische MT scheitert an Datenknappheit) und positioniert LLMs als potenziellen, aber fehlerbehafteten Retter (Kosten, Halluzinationen). Dann führt sie das elegante Hybridmodell ein: Nutze günstige, schnelle APIs für die 80% einfachen Fälle und setze teure, intelligente LLMs nur als Schiedsrichter für die strittigen 20% ein. Diese "Diskrepanzerkennung" ist der clevere Kern des Projekts. Die Evaluation verknüpft die Übersetzungsqualität logisch mit dem konkreten, messbaren Ergebnis verbesserter Ontologie-Matching-Scores und beweist so den praktischen Nutzen jenseits subjektiver Übersetzungsqualität.

Stärken & Schwächen:
Stärken: Die hybride Architektur ist kommerziell klug und technisch solide. Der Fokus auf SKOS, einen W3C-Standard, sichert unmittelbare Relevanz. Die Open-Source-Natur und das Design für "handelsübliche Hardware" senken die Einstiegshürden dramatisch. Die Evaluation anhand der OM-Leistung ist ein Meisterstreich – sie misst Nützlichkeit, nicht nur Ästhetik.
Schwächen: Das Paper geht nur oberflächlich auf Prompt Engineering ein, was der entscheidende Erfolgsfaktor für die LLM-Verfeinerung ist. Ein schlechter Prompt könnte die LLM-Schicht nutzlos oder schädlich machen. Die Evaluation, obwohl sinnvoll, ist noch etwas isoliert; wie schneidet WOKIE im Vergleich zum Fine-Tuning eines kleinen, quelloffenen Modells wie NLLB auf DH-Text ab? Die langfristige Kostenentwicklung von LLM-APIs ist ein Risikofaktor für die Nachhaltigkeit, der nicht vollständig adressiert wird.

Handlungsempfehlungen:

Für DH-Institutionen: Pilotieren Sie WOKIE sofort an einem zentralen nicht-englischen Thesaurus. Der ROI durch verbesserte Ressourcenauffindbarkeit und Anbindung an große Plattformen wie Europeana oder die DPLA könnte erheblich sein. Beginnen Sie mit den kostenlosen Diensten zur Validierung.
Für Entwickler: Tragen Sie zur WOKIE-Codebasis bei, insbesondere bei der Erstellung einer Bibliothek optimierter, domänenangepasster Prompts für verschiedene DH-Teilbereiche (Archäologie, Musikwissenschaft, etc.).
Für Förderer: Fördern Sie die Erstellung eines Goldstandard-Benchmarks für mehrsprachige DH-Terminologie, um das Feld über BLEU-Scores hinauszubringen. Unterstützen Sie Projekte, die die Ausgabe von WOKIE in Active-Learning-Systeme integrieren.
Kritischer nächster Schritt: Die Community muss ein Governance-Modell für diese maschinell übersetzten Bezeichnungen entwickeln. Sie sollten klar als "maschinell unterstützt" gekennzeichnet werden, um die wissenschaftliche Integrität zu wahren, gemäß den Prinzipien der Datenherkunft, wie sie von Initiativen wie der Research Data Alliance (RDA) befürwortet werden.

Zusammenfassend repräsentiert WOKIE die Art von pragmatischer, anwendungsfallgetriebener KI-Anwendung, die tatsächlich Arbeitsabläufe verändern wird. Es jagt nicht der AGI nach; es löst ein spezifisches, schmerzhaftes Problem mit einer cleveren Mischung aus alter und neuer Technologie. Sein Erfolg wird nicht in BLEU-Punkten gemessen, sondern in der Anzahl der zuvor unsichtbaren historischen Aufzeichnungen, die plötzlich für einen globalen Forscher auffindbar werden.