Odpri menu

Moderna arhivistika 2023, 6 (2), str./pp. 255-269

Ivančica SABADIN
Alma Mater Europaea, ECM, Maribor, Slovenija / Alma Mater Europaea, ECM Maribor, Slovenia

Cel članek / Full text article

Ekstrakcija metapodatkov s pomočjo strojnega učenja
Metadata Extraction Using Machine Learning
(Moderna arhivistika 2023, 6 (2), str./pp. 255–269)

https://doi.org/10.54356/MA/2023/VRNY7665


Izvleček:
Namen prispevka je raziskovati tehnike ekstrakcije metapodatkov s pomočjo strojnega učenja. Uporabljena je bila metoda pregleda literature iz podatkovnih baz ProQuest, Scopus in Emerald Insight. Rezultati so pokazali, da so tehnike strojnega učenja že uveljavljene na področju ekstrakcije metapodatkov iz znanstvene literature. Najboljše rezultate so pokazale rešitve, ki združujejo analizo postavitve dokumenta in proces ekstrakcije metapodatkov. Glede na raziskave o ekstrakciji metapodatkov s pomočjo strojnega učenja lahko sklepamo, da je treba dodatno analizirati orodja in modele strojnega učenja GROBID, CERMINE, XTRACT, BERT, Mask R‑CNN in BiLSTM. Na podlagi izkušnjah ekstrakcije metapodatkov iz znanstvene literature je treba prilagoditi modele za ekstrakcijo metapodatkov iz arhivskega gradiva.

Ključne besede:
ekstrakcija metapodatkov, strojno učenje, nadzorovano učenje, modeli strojnega učenja, obdelava naravnega jezika

Abstract:
Metadata extraction using machine learning
The aim of this paper is to explore metadata extraction techniques using machine learning. The method used was a literature review of the ProQuest, Scopus and Emerald Insight databases. The results showed that machine learning techniques are already well established in the field of metadata extraction from scientific literature. The best results were shown by solutions that combined document layout analysis and metadata extraction processes. Based on the research on metadata extraction using machine learning, it can be concluded that further analysis of the machine learning tools and models GROBID, CERMINE, XTRACT, BERT, Mask R-CNN and BiLSTM is needed. Based on the experience with metadata extraction from scientific literature, the models should be adapted for metadata extraction from archival material.

Key words:
metadata extraction, machine learning, supervised learning, machine learning models, natural language processing