Authors: | Zečević, Anđelka Žunić, Anastazia Milojević, Kristina |
Affiliations: | Computer Science Mathematical Institute of the Serbian Academy of Sciences and Arts |
Title: | Стари текстови, нове технологије: дигитализација докумената на српском језику | Related Publication(s): | Knjiga rezimea | Conference: | Južnoslovenski jezici u digitalnom okruženju - JUDIG, Beograd 21-23. novembar 2024. | Issue Date: | 2024 | Rank: | M33 | ISBN: | 978-86-6153-755-4 | URL: | https://judig.jerteh.rs/images/knjige/JUDIG-2024-knjiga%20rezimea.pdf | Abstract: | У свету дигиталне хуманистике појављују се многобројни алати и платформе које имају за циљ да унапреде и обогате рад са дигитализованом грађом. У основи ових алата су комплексни алгоритми машинског учења за обраду слика и текста обучавани над подесно припремљеним репозиторијумима докумената, док су њихове најчешће функционалности унапређивање квалитета слика, просторна анализа докумената, оптичко препознавање карактера и корекција рашчитаног садржаја. Новији алати нуде подршку и за стандардизовање ортографије, лакше и свеобухватније претраживање докумената, издвајање топонима, препознавање тема у садржајима и генерисање сажетака докумената. У овом раду биће представљена искуства у коришћењу модерних алата у отвореном приступу за дигитализацију докумената на српском језику. У питању су алати Calamari-OCR, docTr, LayoutParser, Kraken, Tesseract, OCR4All и други, дизајнирани за појединачне кораке процеса дигитализације или потпун процес пратећи парадигму са- краја-на-крај. За тестирање алата ће се користити грађа Народне библиотеке Србије и периодике објављиване у току деветнаестог века које карактерише велика разноврсност графичких елемената, нестандардни формати, али и физичка деградација и лошији квалитет скенираних докумената. Уз уочене предности и ограничења ових алата, биће дискутовани и начини којима се ови алати даље могу проширивати и прилагођавати српском језику. Посебан осврт ће бити на улози језичких технологија и сценаријима у којима је њихово коришћење више него потребно. |
Keywords: | дигитализација докумената | периодике | обрада слика | обрада природног језика | Publisher: | Beograd : Filolološki fakultet Univerziteta | Project: | ДИГИТАЛИЗАЦИЈА ТЕКСТУАЛНОГ КУЛТУРНОГ НАСЛЕЂА – ПОВЕЋАЊЕ КВАЛИТЕТА ОПТИЧКИ ПРЕПОЗНАТОГ ТЕКСТА (Фонд за иновациону делатност Републике Србије, ID 53119), назив решења LibrAIfy |
Show full item record
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.