Authors: Zečević, Anđelka 
Žunić, Anastazia 
Milojević, Kristina 
Affiliations: Computer Science 
Mathematical Institute of the Serbian Academy of Sciences and Arts 
Title: Стари текстови, нове технологије: дигитализација докумената на српском језику
Related Publication(s): Knjiga rezimea
Conference: Južnoslovenski jezici u digitalnom okruženju - JUDIG, Beograd 21-23. novembar 2024.
Issue Date: 2024
Rank: M33
ISBN: 978-86-6153-755-4
URL: https://judig.jerteh.rs/images/knjige/JUDIG-2024-knjiga%20rezimea.pdf
Abstract: 
У свету дигиталне хуманистике појављују се многобројни алати и платформе које
имају за циљ да унапреде и обогате рад са дигитализованом грађом. У основи ових алата
су комплексни алгоритми машинског учења за обраду слика и текста обучавани над
подесно припремљеним репозиторијумима докумената, док су њихове најчешће
функционалности унапређивање квалитета слика, просторна анализа докумената,
оптичко препознавање карактера и корекција рашчитаног садржаја. Новији алати нуде
подршку и за стандардизовање ортографије, лакше и свеобухватније претраживање
докумената, издвајање топонима, препознавање тема у садржајима и генерисање
сажетака докумената.
У овом раду биће представљена искуства у коришћењу модерних алата у
отвореном приступу за дигитализацију докумената на српском језику. У питању су алати
Calamari-OCR, docTr, LayoutParser, Kraken, Tesseract, OCR4All и други, дизајнирани за
појединачне кораке процеса дигитализације или потпун процес пратећи парадигму са-
краја-на-крај. За тестирање алата ће се користити грађа Народне библиотеке Србије и
периодике објављиване у току деветнаестог века које карактерише велика разноврсност
графичких елемената, нестандардни формати, али и физичка деградација и лошији
квалитет скенираних докумената. Уз уочене предности и ограничења ових алата, биће
дискутовани и начини којима се ови алати даље могу проширивати и прилагођавати
српском језику. Посебан осврт ће бити на улози језичких технологија и сценаријима у
којима је њихово коришћење више него потребно.
Keywords: дигитализација докумената | периодике | обрада слика | обрада природног језика
Publisher: Beograd : Filolološki fakultet Univerziteta
Project: ДИГИТАЛИЗАЦИЈА ТЕКСТУАЛНОГ КУЛТУРНОГ НАСЛЕЂА – ПОВЕЋАЊЕ КВАЛИТЕТА ОПТИЧКИ ПРЕПОЗНАТОГ ТЕКСТА (Фонд за иновациону делатност Републике Србије, ID 53119), назив решења LibrAIfy

Show full item record

Page view(s)

10
checked on Dec 22, 2024

Google ScholarTM

Check

Altmetric


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.