Srpsko-bosanski prevodilac v1.0

Danas sam bio nešto raspoložen za kodiranje, pa sam napravio ovu džidžu:

http://members.smartnet.ba/vedran/prevedi.tar.gz

Srpsko-bosanski prevodilac je program koji automatski prevodi tekstove sa srpskog jezika na bosanski. Pošto je ovo prva verzija, stvari koje rješava su transliteracija sa Unicode ćirilice na Unicode latinicu (prethodno se tekst može prebaciti iz KOI ili ISO standarda na Unicode koristeći neki standardni alat npr. recode(1) ), kao i prebacivanje iz ekavskog u ijekavski. Za ovo drugo koristim wordlistu koja je nastala u okviru započetog projekta pravljenja bosanske spell-check baze.

Zbog raznih prepreka na koje sam naišao, mislim da je iduća faza da se osposobi neki od free spell-checking alata. Druga stvar koju treba uraditi jeste napraviti tabelu zamjena za neke uobičajene riječi i informatičke pojmove (baziranu na ULKBiH riječniku).

Program je naravno u Perlu i pod GNU GPL.

Poznati bugovi:

  • Ne prepoznaje varijante tipa izmjena/izmijeni zbog ignorisanja zadnjeg samoglasnika.
  • Ne prepoznaje varijante tipa izbjegnuti/izbjegnete iz istog razloga (u obzir se uzima samo zadnji samoglasnik kod konstruisanja varijanti). Oba problema biće riješena prelaskom na napredniji spellchecking engine.
  • Ne prepoznaje stvari kao što je deo->dio iz očiglednih razloga.
  • Neke riječi u wordlisti su dvosmislene, pa sam ih iskomentirao. Treba još pogledati.
  • Ručno sam dodao u wordlistu neke riječi koje su mi bile potrebne. Ovo će kasnije trebati usporediti.
  • Ne ispravlja stvari tipa veb->web ili imeil->email :slight_smile:

:kul: Bravo, Sizife!

Što, baš je bilo zabavno 8)

[quote]

  • Ne prepoznaje varijante tipa izbjegnuti/izbjegnete iz istog razloga (u obzir se uzima samo zadnji samoglasnik kod konstruisanja varijanti). Oba problema biće riješena prelaskom na napredniji spellchecking engine.[/quote]

Mogao bi ih probati rijesiti funkcijom soundex() Ja bih to uradio ali vec sam “uvaljen” u dva projekta :slight_smile:

Bojim se da bi rezultati bili totalno nepredvidljivi :? … probaću :silly:

Ja znam sigurno da mozes prepoznati neke nepravilne rijeci …
poredis meni se cini samo prva 4 slova soundexa koji dobijes
na taj nacin sam mogao detektovati jednim “udarcem” npr. pjevo i pjevao i tu istu gresku za ostale glagole. Javi rezultate!

EDITOVANO:

PS. Postao sam “Pingvin senior” :slight_smile:

vedrna, ugledah tvoju poruku na BHW forumu http://www.most-art.de/bhwebmasters/bhwboard/thread.php?threadid=1895&boardid=48&page=1#7

pa mi nije bilo mrsko :slight_smile: . evo web verzija “latinizatora i desrbizatora” :slight_smile:

http://www.php.co.ba/cgi-bin/prevedi.cgi

ako stignem, dodacu da se moze uploadovati.

M.

Mirza, da li je tvojoj prevedi.cgi skripti, dostupna wordlista?

nisam previse kontrolisao, ali mi se takodje cini da skripta ne otvara wordlistu, jer ekavicu ne mjenja. prekontrolisacu poslepodne.

M.

prekontrolisao sam i wordlista se otvara i ucitava u hash …

pregledacu sutra gdje je greska …

M.

Rado bih se uključio ali u frci sam ovih dana. Možda popodne. U međuvremenu imam na disku malo dorađenu verziju prevodioca sa updatovanom wordlistom, pa bih mogao uskoro izdati v1.1 :wink:

hehe … zasto ne … pa stavi za download, a ja cu nabaciti na net.

M.