dr. Hrvoje STANČIĆ
Department of Information and Communication Sciences, Faculty of Humanities and Social Sciences, University of Zagreb, Croatia / Filozofska fakulteta, Univerza v Zagrebu, Hrvaška
Željko TRBUŠIĆ
Institute for the History of Croatian Literature, Theatre and Music, Croatian Academy of Sciences and Arts, Zagreb, Croatia / Hrvaška akademija znanosti in umetnosti, Zagreb, Hrvaška
(Moderna arhivistika, III., 2020, št. 1, str. 75-85)
https://doi.org/10.54356/MA/2020/1/RRGN4957
Abstract:
The purpose of this research is to establish a method for OCR quality evaluation in different archival situations and stages of document ingest process. The conducted experiments explain the importance of OCR optimization using the example of Croatian typewritten materials. Furthermore, the paper discusses the importance of unique, or distinct, words in document retrieval.
Key words:
digitization, OCR quality, ISRI Tools, archival information systems, ingest
Izvleček:
Ocena in izboljšanje učinkovitosti optičnega prepoznavanja znakov (OCR)
Namen raziskave je vzpostaviti metodo preverjanja kvalitete OCR v različnih situacijah in fazah prevzemanja arhivskega gradiva. Opravljeni preizkusi pojasnjujejo pomembnost optimizacije OCR na primeru hrvaških tipkanih dokumentov. Prispevek obravnava tudi pomembnost enkratnih, ali jasnih, besed pri iskanju dokumentov.
Ključne besede:
digitalizacija, kvaliteta OCR, orodja ISRI, arhivski informacijski sistemi, zajem