Authors: Zečević, Anđelka 
Žunić, Anastazia 
Milojević, Kristina 
Affiliations: Computer Science 
Mathematical Institute of the Serbian Academy of Sciences and Arts 
Title: Стари текстови, нове технологије: дигитализација докумената на српском језику
Related Publication(s): Knjiga rezimea
Conference: Južnoslovenski jezici u digitalnom okruženju - JUDIG, Beograd 21-23. novembar 2024.
Issue Date: 2024
Rank: M33
ISBN: 978-86-6153-755-4
URL: https://judig.jerteh.rs/images/knjige/JUDIG-2024-knjiga%20rezimea.pdf
Abstract: 
У свету дигиталне хуманистике појављују се многобројни алати и платформе које
имају за циљ да унапреде и обогате рад са дигитализованом грађом. У основи ових алата
су комплексни алгоритми машинског учења за обраду слика и текста обучавани над
подесно припремљеним репозиторијумима докумената, док су њихове најчешће
функционалности унапређивање квалитета слика, просторна анализа докумената,
оптичко препознавање карактера и корекција рашчитаног садржаја. Новији алати нуде
подршку и за стандардизовање ортографије, лакше и свеобухватније претраживање
докумената, издвајање топонима, препознавање тема у садржајима и генерисање
сажетака докумената.
У овом раду биће представљена искуства у коришћењу модерних алата у
отвореном приступу за дигитализацију докумената на српском језику. У питању су алати
Calamari-OCR, docTr, LayoutParser, Kraken, Tesseract, OCR4All и други, дизајнирани за
појединачне кораке процеса дигитализације или потпун процес пратећи парадигму са-
краја-на-крај. За тестирање алата ће се користити грађа Народне библиотеке Србије и
периодике објављиване у току деветнаестог века које карактерише велика разноврсност
графичких елемената, нестандардни формати, али и физичка деградација и лошији
квалитет скенираних докумената. Уз уочене предности и ограничења ових алата, биће
дискутовани и начини којима се ови алати даље могу проширивати и прилагођавати
српском језику. Посебан осврт ће бити на улози језичких технологија и сценаријима у
којима је њихово коришћење више него потребно.
Keywords: дигитализација докумената | периодике | обрада слика | обрада природног језика
Publisher: Beograd : Filolološki fakultet Univerziteta
Project: ДИГИТАЛИЗАЦИЈА ТЕКСТУАЛНОГ КУЛТУРНОГ НАСЛЕЂА – ПОВЕЋАЊЕ КВАЛИТЕТА ОПТИЧКИ ПРЕПОЗНАТОГ ТЕКСТА (Фонд за иновациону делатност Републике Србије, ID 53119), назив решења LibrAIfy

Show full item record

Page view(s)

4
checked on Dec 21, 2024

Google ScholarTM

Check

Altmetric


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.