DC FieldValueLanguage
dc.contributor.authorZečević, Anđelkaen_US
dc.contributor.authorŽunić, Anastaziaen_US
dc.contributor.authorMilojević, Kristinaen_US
dc.date.accessioned2024-12-19T11:02:48Z-
dc.date.available2024-12-19T11:02:48Z-
dc.date.issued2024-
dc.identifier.isbn978-86-6153-755-4-
dc.identifier.urihttp://researchrepository.mi.sanu.ac.rs/handle/123456789/5422-
dc.description.abstractУ свету дигиталне хуманистике појављују се многобројни алати и платформе које имају за циљ да унапреде и обогате рад са дигитализованом грађом. У основи ових алата су комплексни алгоритми машинског учења за обраду слика и текста обучавани над подесно припремљеним репозиторијумима докумената, док су њихове најчешће функционалности унапређивање квалитета слика, просторна анализа докумената, оптичко препознавање карактера и корекција рашчитаног садржаја. Новији алати нуде подршку и за стандардизовање ортографије, лакше и свеобухватније претраживање докумената, издвајање топонима, препознавање тема у садржајима и генерисање сажетака докумената. У овом раду биће представљена искуства у коришћењу модерних алата у отвореном приступу за дигитализацију докумената на српском језику. У питању су алати Calamari-OCR, docTr, LayoutParser, Kraken, Tesseract, OCR4All и други, дизајнирани за појединачне кораке процеса дигитализације или потпун процес пратећи парадигму са- краја-на-крај. За тестирање алата ће се користити грађа Народне библиотеке Србије и периодике објављиване у току деветнаестог века које карактерише велика разноврсност графичких елемената, нестандардни формати, али и физичка деградација и лошији квалитет скенираних докумената. Уз уочене предности и ограничења ових алата, биће дискутовани и начини којима се ови алати даље могу проширивати и прилагођавати српском језику. Посебан осврт ће бити на улози језичких технологија и сценаријима у којима је њихово коришћење више него потребно.en_US
dc.publisherBeograd : Filolološki fakultet Univerzitetaen_US
dc.relationДИГИТАЛИЗАЦИЈА ТЕКСТУАЛНОГ КУЛТУРНОГ НАСЛЕЂА – ПОВЕЋАЊЕ КВАЛИТЕТА ОПТИЧКИ ПРЕПОЗНАТОГ ТЕКСТА (Фонд за иновациону делатност Републике Србије, ID 53119), назив решења LibrAIfy-
dc.subjectдигитализација докумената | периодике | обрада слика | обрада природног језикаen_US
dc.titleСтари текстови, нове технологије: дигитализација докумената на српском језикуen_US
dc.typeConference Paperen_US
dc.relation.conferenceJužnoslovenski jezici u digitalnom okruženju - JUDIG, Beograd 21-23. novembar 2024.en_US
dc.relation.publicationKnjiga rezimeaen_US
dc.identifier.urlhttps://judig.jerteh.rs/images/knjige/JUDIG-2024-knjiga%20rezimea.pdf-
dc.contributor.affiliationComputer Scienceen_US
dc.contributor.affiliationMathematical Institute of the Serbian Academy of Sciences and Artsen_US
dc.description.rankM33-
item.cerifentitytypePublications-
item.openairetypeConference Paper-
item.grantfulltextnone-
item.fulltextNo Fulltext-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
crisitem.author.orcid0000-0002-5656-007X-
crisitem.author.orcid0000-0001-5222-1268-
crisitem.author.orcid0000-0001-6543-4705-
Show simple item record

Page view(s)

10
checked on Dec 22, 2024

Google ScholarTM

Check

Altmetric


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.