Srpsko-bosanski prevodilac je program koji automatski prevodi tekstove sa srpskog jezika na bosanski. Pošto je ovo prva verzija, stvari koje rješava su transliteracija sa Unicode ćirilice na Unicode latinicu (prethodno se tekst može prebaciti iz KOI ili ISO standarda na Unicode koristeći neki standardni alat npr. recode(1) ), kao i prebacivanje iz ekavskog u ijekavski. Za ovo drugo koristim wordlistu koja je nastala u okviru započetog projekta pravljenja bosanske spell-check baze.
Zbog raznih prepreka na koje sam naišao, mislim da je iduća faza da se osposobi neki od free spell-checking alata. Druga stvar koju treba uraditi jeste napraviti tabelu zamjena za neke uobičajene riječi i informatičke pojmove (baziranu na ULKBiH riječniku).
Program je naravno u Perlu i pod GNU GPL.
Poznati bugovi:
Ne prepoznaje varijante tipa izmjena/izmijeni zbog ignorisanja zadnjeg samoglasnika.
Ne prepoznaje varijante tipa izbjegnuti/izbjegnete iz istog razloga (u obzir se uzima samo zadnji samoglasnik kod konstruisanja varijanti). Oba problema biće riješena prelaskom na napredniji spellchecking engine.
Ne prepoznaje stvari kao što je deo->dio iz očiglednih razloga.
Neke riječi u wordlisti su dvosmislene, pa sam ih iskomentirao. Treba još pogledati.
Ručno sam dodao u wordlistu neke riječi koje su mi bile potrebne. Ovo će kasnije trebati usporediti.
Ne ispravlja stvari tipa veb->web ili imeil->email
Ne prepoznaje varijante tipa izbjegnuti/izbjegnete iz istog razloga (u obzir se uzima samo zadnji samoglasnik kod konstruisanja varijanti). Oba problema biće riješena prelaskom na napredniji spellchecking engine.[/quote]
Mogao bi ih probati rijesiti funkcijom soundex() Ja bih to uradio ali vec sam “uvaljen” u dva projekta
Ja znam sigurno da mozes prepoznati neke nepravilne rijeci …
poredis meni se cini samo prva 4 slova soundexa koji dobijes
na taj nacin sam mogao detektovati jednim “udarcem” npr. pjevo i pjevao i tu istu gresku za ostale glagole. Javi rezultate!
Rado bih se uključio ali u frci sam ovih dana. Možda popodne. U međuvremenu imam na disku malo dorađenu verziju prevodioca sa updatovanom wordlistom, pa bih mogao uskoro izdati v1.1