1. Utangulizi na Motisha
Uandaaaji wa maarifa katika Sayansi za Kibinadamu za Kidijitali (DH) hutegemea sana msamiati uliodhibitiwa, thesauri, na ontolojia, hasa zinazotumiwa kwa kutumia Mfumo Rahisi wa Uandaaaji Maarifa (SKOS). Kuna kikwazo kikubwa kutokana na utawala wa Kiingereza katika rasilimali hizi, jambo linalowatenga wasio wazungumzaji wa lugha ya asili na kuwakosea uwakilishi wa tamaduni na lugha mbalimbali. Thesauri zenye lugha nyingi ni muhimu kwa miundombinu ya utafiti inayojumuisha, lakini uundaji wao kwa mikono hauwezi kuongezeka. Mbinu za kawaida za Kutafsiri kwa Mashine (MT) zinashindwa katika miktadha ya DH kutokana na ukosefu wa vyanzo vya maandishi ya lugha mbili vinavyolenga taaluma maalum. Karatasi hii inaanzisha WOKIE (Chaguo Zilizotafsiriwa Vyema kwa Usimamizi wa Maarifa katika Mazingira ya Kimataifa), mfumo wa chanzo wazi, wenye vipengele vinavyoweza kubadilishwa ambao unachanganya huduma za tafsiri za nje na usafishaji unaolengwa kwa kutumia Mifano ya Lugha Kubwa (LLM) ili kufanya tafsiri ya thesauri za SKOS iwe otomatiki, kwa kusawazisha ubora, uwezo wa kuongezeka, na gharama.
2. Mfumo wa WOKIE: Usanifu na Mtiririko wa Kazi
WOKI imeundwa kama mfumo unaoweza kubadilishwa, wenye hatua nyingi ambao hauhitaji ujuzi wa awali katika MT au LLM. Inaendeshwa kwenye vifaa vya kawaida vya kompyuta na inaweza kutumia huduma za tafsiri za bure.
2.1 Vipengele Muhimu
Mfumo huu una hatua kuu tatu:
- Tafsiri ya Awali: Thesauri ya SKOS inachambuliwa, na lebo zake (prefLabel, altLabel) hutumwa kwa huduma nyingi za tafsiri za nje zinazoweza kubadilishwa (k.m., Google Translate, DeepL API).
- Mkusanyiko wa Wagombea na Ugunduzi wa Kutokubaliana: Tafsiri za kila neno zinakusanywa. Uvumbuzi muhimu ni ugunduzi wa "kutokubaliana" miongoni mwa huduma hizi. Kizingiti kinachoweza kubadilishwa (k.m., ikiwa tafsiri kutoka kwa huduma N zinatofautiana zaidi ya alama ya ufanano) husababisha hatua ya usafishaji.
- Usafishaji Kulingana na LLM: Kwa maneno ambapo tafsiri za awali hazikubaliani, tafsiri za wagombea na neno la asili hutiwa kwenye LLM (k.m., GPT-4, Llama 3) kwa ujumbe ulioandaliwa kwa uangalifu unaouliza tafsiri bora iwezekanavyo na sababu zake.
2.2 Mantiki ya Usafishaji Kulingana na LLM
Matumizi ya LLM kwa kuchagua ndio kiini cha muundo wa WOKIE. Badala ya kutafsiri kila neno kwa LLM (ghali, polepole, inaweza kutoa taarifa potofu), LLM hutumiwa tu kama wasuluhishi kwa kesi ngumu. Njia hii mseto inatumia kasi na gharama ndogo za API za kawaida za MT kwa tafsiri zilizo wazi, na kuweka uwezo wa LLM kwa maneno ambapo hakuna makubaliano, na hivyo kuimarisha usawazishaji kati ya ubora na matumizi ya rasilimali.
3. Maelezo ya Kiufundi na Mbinu
WOKIE imetekelezwa kwa Python, ikitumia maktaba kama vile RDFLib kwa kuchambua SKOS. Ufanisi wa mfumo unategemea utaratibu wake mzuri wa uelekezaji.
3.1 Kipimo cha Tathmini ya Ubora wa Tafsiri
Ili kutathmini ubora wa tafsiri, waandishi walitumia mchanganyiko wa vipimo vya otomatiki na tathmini ya binadamu mtaalamu. Kwa upimaji otomatiki, walibadilisha alama ya BLEU (Bilingual Evaluation Understudy), inayotumiwa kwa kawaida katika utafiti wa MT, lakini walibainisha mapungufu yake kwa maneno mafupi ya kitamthilia. Tathmini kuu ililenga uboreshaji wa utendaji katika Kulinganisha Ontolojia (OM), kwa kutumia mifumo ya kawaida ya OM kama LogMap na AML. Dhana ilikuwa kwamba tafsiri zenye ubora wa juu zingesababisha alama bora za usawazishaji. Faida ya utendaji $G$ kwa thesauri $T$ baada ya tafsiri inaweza kuundwa kama ifuatavyo:
$G(T) = \frac{Score_{matched}(T_{translated}) - Score_{matched}(T_{original})}{Score_{matched}(T_{original})}$
ambapo $Score_{matched}$ ni kipimo cha F-kipimo kutoka kwa mfumo wa kulinganisha ontolojia.
4. Matokeo ya Majaribio na Tathmini
Tathmini ilifunika thesauri kadhaa za DH katika lugha 15, ikijaribu vigezo tofauti, huduma za tafsiri, na LLM.
Takwimu Muhimu za Majaribio
- Thesauri Zilizotathminiwa: Nyingi (k.m., Getty AAT, GND)
- Lugha: 15, zikiwemo Kijerumani, Kifaransa, Kihispania, Kichina, Kiarabu
- LLM Zilizojaribiwa: GPT-4, GPT-3.5-Turbo, Llama 3 70B
- Huduma za Msingi: Google Translate, DeepL API
4.1 Ubora wa Tafsiri Katika Lugha Mbalimbali
Tathmini ya binadamu ilionyesha kuwa mfumo wa WOKIE (MT ya nje + usafishaji wa LLM) ulifanya vizuri zaidi kuliko kutumia huduma yoyote moja ya tafsiri ya nje peke yake. Uboreshaji wa ubora ulionekana wazi zaidi kwa:
- Lugha zenye rasilimali chache: Ambapo API za kawaida mara nyingi zinashindwa.
- Istilahi maalum ya taaluma: Maneno yenye utata wa kitamaduni au kihistoria (k.m., "fresco secco," "codex") ambapo MT ya jumla hutoa tafsiri halisi lakini zisizo sahihi.
Maelezo ya Chati (Inayodhaniwa): Chati ya mistawi inayolinganisha alama za BLEU (au alama za tathmini ya binadamu) katika hali nne: Google Translate peke yake, DeepL peke yake, WOKIE na usafishaji wa GPT-3.5, na WOKIE na usafishaji wa GPT-4. Mistawi ya usanidi wa WOKIE ni ya juu sana, hasa kwa jozi za lugha kama Kiingereza-hadi-Kiarabu au Kiingereza-hadi-Kichina.
4.2 Uboreshaji wa Utendaji wa Kulinganisha Ontolojia
Huu ndio matokeo makuu ya kiasi. Baada ya kuchakata thesauri zisizo za Kiingereza kupitia WOKIE ili kuongeza lebo za Kiingereza, alama za kipimo cha F za mifumo ya kulinganisha ontolojia (LogMap, AML) ziliongezeka kwa kiasi kikubwa—kwa wastani wa 22-35% kulingana na lugha na utata wa thesauri. Hii inathibitisha matumizi ya msingi ya mfumo huu: inaboresha moja kwa moja ushirikiano wa maana kwa kufanya rasilimali zisizo za Kiingereza zipatikane kwa zana za OM zinazolenga Kiingereza.
Maelezo ya Chati (Inayodhaniwa): Grafu ya mstari inayoonyesha kipimo cha F cha kulinganisha ontolojia kwenye mhimili wa y dhidi ya njia tofauti za tafsiri kwenye mhimili wa x. Mstari huanza chini kwa "Hakuna Tafsiri," unapanda kidogo kwa "Huduma Moja ya MT," na unafikia kilele kwa "Mfumo wa WOKIE."
4.3 Uchambuzi wa Utendaji na Gharama
Kwa kutumia LLM kwa kuchagua tu kwa maneno yasiyokubaliana (kwa kawaida 10-25% ya jumla), WOKIE ilipunguza gharama za API za LLM kwa 75-90% ikilinganishwa na njia ya tafsiri ya LLM kamili isiyo na busara, huku ikibaki na takriban 95% ya faida ya ubora. Muda wa usindikaji ulitawaliwa na mihitaji ya LLM, lakini mfumo mzima ulibaki unawezekana kwa thesauri za ukati wa kati kwenye vifaa vya kawaida.
5. Mfumo wa Uchambuzi: Mfano wa Utafiti Usio na Msimbo
Hali: Maktaba ya kidijitali ya Ulaya ina thesauri ya lugha ya Kijerumani kwa mbinu za sanaa za enzi za kati. Watafiti nchini Japani hawawezi kupata rasilimali zinazohusiana kwa sababu zana zao za kulinganisha ontolojia huchakata lebo za Kiingereza tu.
Matumizi ya WOKIE:
- Ingizo: Neno la Kijerumani "Wandmalerei" (uchoraji wa ukuta).
- Hatua ya 1 (MT ya Nje): Google Translate inarudisha "wall painting." DeepL inarudisha "mural painting." Microsoft Translator inarudisha "wall painting." Kuna kutokubaliana ("mural" dhidi ya "wall").
- Hatua ya 2 (Ugunduzi wa Kutokubaliana): Ufanano kati ya wagombea ni chini ya kizingiti. Usafishaji wa LLM husababishwa.
- Hatua ya 3 (Usafishaji wa LLM): Ujumbe: "Kwa kuzingatia neno la historia ya sanaa la Kijerumani 'Wandmalerei' na tafsiri za wagombea za Kiingereza ['wall painting', 'mural painting'], ni ipi neno sahihi zaidi na linalofaa kulingana na muktadha kwa thesauri ya SKOS katika historia ya sanaa? Zingatia usahihi na matumizi ya kawaida katika taaluma hiyo."
- Matokeo ya LLM: "Katika muktadha wa thesauri za historia ya sanaa kama Getty AAT, 'mural painting' ndio maelezo sahihi zaidi na yanayotumika kwa kawaida kwa 'Wandmalerei,' kwani inamaanisha hasa uchoraji unaotumiwa moja kwa moja kwenye ukuta au dari."
- Matokeo: Dhana ya SKOS inapata prefLabel "mural painting," na kuwezesha kulinganisha sahihi na ontolojia za Kiingereza.
6. Matumizi ya Baadaye na Mwelekeo wa Utafiti
- Zaidi ya Tafsiri: Kupanua WOKIE ili kupendekeza dhana mpya zinazohusiana au altLabels katika lugha lengwa, ikifanya kazi kama zana ya kuongeza thesauri.
- Ujumuishaji na Mifano ya Msingi: Kutumia mifano ya lugha ya kuona (kama CLIP) kutafsiri dhana kulingana na picha zinazohusishwa katika makusanyo ya kidijitali, sio maandishi tu.
- Mzunguko wa Kujifunza Kikamilifu: Kujumuisha maoni ya binadamu katika mzunguko ili kusahihisha matokeo ya LLM, na kuboresha kila mara utendaji wa mfumo unaolenga taaluma maalum.
- Usanifishaji wa Tathmini: Kuunda safu ya kigezo maalum cha kutathmini ubora wa tafsiri ya SKOS/thesauri, na kuondoka kwenye alama za BLEU hadi kwenye vipimo vinavyoshika uhifadhi wa safu na uhusiano.
- Mifumo Pana ya Uandaaaji Maarifa (KOS): Kutumia kanuni ya usafishaji wa mseto wa MT+LLM kwa ontolojia ngumu zaidi (OWL) zaidi ya SKOS.
7. Marejeo
- Kraus, F., Blumenröhr, N., Tonne, D., & Streit, A. (2025). Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri. arXiv preprint arXiv:2507.19537.
- Miles, A., & Bechhofer, S. (2009). SKOS Simple Knowledge Organization System Reference. W3C Recommendation. https://www.w3.org/TR/skos-reference/
- Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
- Carroll, J. J., & Stickler, P. (2004). RDF Triples in the Semantic Web. IEEE Internet Computing.
- Getty Research Institute. (2024). Art & Architecture Thesaurus (AAT). https://www.getty.edu/research/tools/vocabularies/aat/
- Papineni, K., et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).
8. Uchambuzi wa Mtaalamu: Uelewa Msingi, Mtiririko wa Mantiki, Nguvu na Udhaifu, Uelewa Unaoweza Kutekelezwa
Uelewa Msingi: WOKIE sio tu zana nyingine ya tafsiri; ni injini ya ushirikiano yenye busara, inayozingatia gharama kwa ulimwengu uliogawanyika wa data ya urithi wa kitamaduni. Uvumbuzi wake wa kweli ni kutambua kwamba tafsiri kamili ya AI ni jambo lisilowezekana kwa taaluma maalum, na badala yake, inatumia LLM kama kisu cha usahihi wa juu badala ya nyundo isiyo na uangalifu. Karatasi hiyo inatambua kwa usahihi tatizo la msingi katika DH: Kiingereza ndio lugha ya de facto ya kuuliza kwa data zinazounganishwa, na hii inasababisha kutengwa kwa kimya kwa hifadhi kubwa za maarifa zisizo za Kiingereza. Lengo la WOKIE sio tafsiri ya kishairi bali kuwezesha ugunduzi, lengo linaloweza kufikiwa na lenye athari kubwa zaidi.
Mtiririko wa Mantiki: Hoja hii ni ya kulazimisha na imeundwa vizuri. Huanza na tatizo la dhahiri la maumivu (kutengwa kwa lugha katika DH), inavunja suluhisho dhahiri (kazi ya mikono haiwezekani, MT ya kawaida inashindwa kutokana na uhaba wa data), na kuweka LLM kama mwokozi unaowezekana lakini wenye dosari (gharama, taarifa potofu). Kisha, inaanzisha muundo mzuri wa mseto: tumia API za bei rahisi, za kasi kwa 80% ya kesi rahisi, na tumia LLM ghali, zenye akili tu kama wasuluhishi kwa 20% ya kesi zenye utata. "Ugunduzi wa kutokubaliana" huu ndio kiini chenye akili cha mradi huu. Tathmini inaunganisha mantiki ubora wa tafsiri na matokeo halisi, yanayoweza kupimika ya alama zilizoboreshwa za kulinganisha ontolojia, na kuthibitisha matumizi ya ulimwengu halisi zaidi ya ubora wa tafsiri unaotegemea mtazamo binafsi.
Nguvu na Udhaifu:
Nguvu: Usanifu wa mseto una busara ya kibiashara na ni wa kiufundi. Mwelekeo kwenye SKOS, kiwango cha W3C, kunahakikisha umuhimu wa haraka. Asili ya chanzo wazi na muundo wa "vifaa vya kawaida vya kompyuta" hupunguza vikwazo vya kutumia kwa kasi. Kutathmini kwa utendaji wa OM ni hatua bora—inapima matumizi, sio uzuri tu.
Udhaifu: Karatasi hii haijazungumzia kwa kina uhandisi wa ujumbe, ambao ndio kipengele cha kufanya au kuvunja kwa usafishaji wa LLM. Ujumbe mbovu unaweza kufanya safu ya LLM isifanye kazi au kuwa na madhara. Tathmini, ingawa ina busara, bado iko kando kidogo; WOKIE inalinganishaje na kurekebisha modeli ndogo ya chanzo wazi kama NLLB kwenye maandishi ya DH? Mwelekeo wa gharama ya muda mrefu wa API za LLM ni kipengele cha hatari kwa uendelevu ambao haujazungumziwa kikamilifu.
Uelewa Unaoweza Kutekelezwa:
- Kwa Taasisi za DH: Anza kutumia WOKIE mara moja kwenye thesauri moja muhimu isiyo ya Kiingereza. Faida ya uwekezaji katika uboreshaji wa ugunduzi wa rasilimali na usawazishaji na vituo vikuu kama Europeana au DPLA inaweza kuwa muhimu. Anza na huduma za kiwango cha bure ili kuthibitisha.
- Kwa Wasanidi Programu: Changia kwenye msimbo wa WOKIE, hasa katika kuunda maktaba ya ujumbe bora, uliorekebishwa kwa taaluma kwa sehemu tofauti za DH (akiolojia, muzikolojia, n.k.).
- Kwa Wafadhili: Fadhili uundaji wa kigezo cha dhahabu, cha istilahi ya DH yenye lugha nyingi ili kuhamisha taaluma hiyo mbali na alama za BLEU. Saidia miradi inayojumuisha matokeo ya WOKIE kwenye mifumo ya kujifunza kikamilifu.
- Hatua Muhimu Inayofuata: Jamii lazima iunde muundo wa utawala kwa lebo hizi zilizotafsiriwa kwa mashine. Zinapaswa kuwa na lebo wazi kama "zilizoboreshwa na mashine" ili kudumisha uadilifu wa kitaaluma, kufuata kanuni za asili ya data zinazotetewa na mipango kama Research Data Alliance (RDA).
Kwa kumalizia, WOKIE inawakilisha aina ya matumizi ya AI yenye busara, inayolenga matumizi halisi ambayo itabadilisha mtiririko wa kazi. Haimfuati AGI; inatatua tatizo maalum, lenye maumivu kwa mchanganyiko mzuri wa teknolojia ya zamani na mpya. Mafanikio yake yatapimwa sio kwa alama za BLEU, bali kwa idadi ya rekodi za kihistoria zilizokuwa hazionekani ambazo ghafla zinapatikana kwa mtafiti wa kimataifa.