DC Field | Value | Language |
---|---|---|
dc.contributor.author | Zečević, Anđelka | en_US |
dc.contributor.author | Žunić, Anastazia | en_US |
dc.contributor.author | Milojević, Kristina | en_US |
dc.date.accessioned | 2024-12-19T11:02:48Z | - |
dc.date.available | 2024-12-19T11:02:48Z | - |
dc.date.issued | 2024 | - |
dc.identifier.isbn | 978-86-6153-755-4 | - |
dc.identifier.uri | http://researchrepository.mi.sanu.ac.rs/handle/123456789/5422 | - |
dc.description.abstract | У свету дигиталне хуманистике појављују се многобројни алати и платформе које имају за циљ да унапреде и обогате рад са дигитализованом грађом. У основи ових алата су комплексни алгоритми машинског учења за обраду слика и текста обучавани над подесно припремљеним репозиторијумима докумената, док су њихове најчешће функционалности унапређивање квалитета слика, просторна анализа докумената, оптичко препознавање карактера и корекција рашчитаног садржаја. Новији алати нуде подршку и за стандардизовање ортографије, лакше и свеобухватније претраживање докумената, издвајање топонима, препознавање тема у садржајима и генерисање сажетака докумената. У овом раду биће представљена искуства у коришћењу модерних алата у отвореном приступу за дигитализацију докумената на српском језику. У питању су алати Calamari-OCR, docTr, LayoutParser, Kraken, Tesseract, OCR4All и други, дизајнирани за појединачне кораке процеса дигитализације или потпун процес пратећи парадигму са- краја-на-крај. За тестирање алата ће се користити грађа Народне библиотеке Србије и периодике објављиване у току деветнаестог века које карактерише велика разноврсност графичких елемената, нестандардни формати, али и физичка деградација и лошији квалитет скенираних докумената. Уз уочене предности и ограничења ових алата, биће дискутовани и начини којима се ови алати даље могу проширивати и прилагођавати српском језику. Посебан осврт ће бити на улози језичких технологија и сценаријима у којима је њихово коришћење више него потребно. | en_US |
dc.publisher | Beograd : Filolološki fakultet Univerziteta | en_US |
dc.relation | ДИГИТАЛИЗАЦИЈА ТЕКСТУАЛНОГ КУЛТУРНОГ НАСЛЕЂА – ПОВЕЋАЊЕ КВАЛИТЕТА ОПТИЧКИ ПРЕПОЗНАТОГ ТЕКСТА (Фонд за иновациону делатност Републике Србије, ID 53119), назив решења LibrAIfy | - |
dc.subject | дигитализација докумената | периодике | обрада слика | обрада природног језика | en_US |
dc.title | Стари текстови, нове технологије: дигитализација докумената на српском језику | en_US |
dc.type | Conference Paper | en_US |
dc.relation.conference | Južnoslovenski jezici u digitalnom okruženju - JUDIG, Beograd 21-23. novembar 2024. | en_US |
dc.relation.publication | Knjiga rezimea | en_US |
dc.identifier.url | https://judig.jerteh.rs/images/knjige/JUDIG-2024-knjiga%20rezimea.pdf | - |
dc.contributor.affiliation | Computer Science | en_US |
dc.contributor.affiliation | Mathematical Institute of the Serbian Academy of Sciences and Arts | en_US |
dc.description.rank | M33 | - |
item.cerifentitytype | Publications | - |
item.openairetype | Conference Paper | - |
item.grantfulltext | none | - |
item.fulltext | No Fulltext | - |
item.openairecristype | http://purl.org/coar/resource_type/c_18cf | - |
crisitem.author.orcid | 0000-0002-5656-007X | - |
crisitem.author.orcid | 0000-0001-5222-1268 | - |
crisitem.author.orcid | 0000-0001-6543-4705 | - |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.