AlfaNum tim je jedini tim na prostorima bivše Jugoslavije koji se bavi razvojem govornih tehnologija za srpski jezik i u tome je postigao rezultate koji se po kvalitetu mogu porediti sa rezultatima postignutim za neke svetske jezike. Pomenuti rezultati plod su višegodišnjeg rada nekolicine stručnjaka na Fakultetu tehničkih nauka u Novom Sadu. Za rešavanje problema prepoznavanja i sinteze govora potrebna su znanja iz raznih oblasti - od tehničkih i matematičkih do lingvističkih, i takvim se multidisciplinarnim problemima u svetu bave timovi koji broje i po više desetina ljudi. Veoma široko polje primena govornih tehnologija kao i njihova izrazita zavisnost od jezika najviše govore o značaju projekta AlfaNum, čija rešenja sadrže originalne naučne doprinose verifikovane na domaćem i međunarodnom nivou, kao i patentirana rešenja. Na ovoj strani predstavljena su softverska rešenja koja smo u okviru projekta realizovali, govorne baze i jezičke resurse koje smo razvili, najbitniji naučni radovi koje smo objavili na konferencijama i u časopisima, kao i projekti u koje smo trenutno uključeni.

SOFTWARE

Prvi sistem za prepoznavanje kontinualnog govora na srpskom jeziku baziran na prepoznavanju fonema:

  • prepoznavanje se vrši nezavisno od govornika
  • rešenje je potpuno softversko i ne zahteva dodatni hardver
  • tačnost je iznad 98% na rečniku od 2000 reči za snimke telefonskog kvaliteta
  • sistem vraća informaciju o pouzdanosti prepoznavanja pojedinih govornih celina, kao i listu alternativnih rezultata prepoznavanja sortiranu po verovatnoći prepoznavanja
  • postoje džoker (wildcard) modeli, koji mogu poslužiti za implementaciju word-spottera
  • sistem radi brzo i pouzdano i podržava moderne multicore i multiprocesorske platforme
  • podržano je nekoliko interfejsa: C++ biblioteka, ActiveX, MS SAPI,IP server, MRCP
  • podržana je distribucija na više računara, kao i raspodela opterećenja između njih, što omogućava primenu u vrlo zahtevnim okruženjima

Prvi sistem za sintezu govora na osnovu teksta na srpskom jeziku sa ugrađenim elementima prirodne intonacije

  • rešenje je potpuno softversko i ne zahteva dodatni hardver
  • za sintezu se koristi jedna verzija PSOLA algoritma
  • sistem podržava i korišćenje drugih algoritama za sintezu, uključujući skrivene Markovljeve modele (HMM)
  • sistem radi brzo i pouzdano tako da može istovremeno da radi na 100 linija u realnom vremenu
  • ugrađeni elementi akcentuacije značajno doprinose razumljivosti i prirodnosti sintetizovanog govora, a prirodnost rečenične intonacije omogućena je korišćenjem tehnika zasnovanim na klasifikacionim i regresionim stablima (CART)
  • sistem poseduje mnoštvo korisnih dodatnih mogućnosti (čitanje ćirilice, brojeva, reči bez dijakritičkih znakova, skraćenica, reči stranog porekla...)

Demonstraciju sistema za sintezu govora možete pronaći ovde, a na istoj stranici možete preuzeti i uputstvo za demonstraciju sistema za prepoznavanje govora.

Pored navedenog softvera, razvili smo i pomoćni softver za digitalnu obradu govornog signala i obradu govornih baza, koji se može preuzeti ovde, odgovarajuće C++ biblioteke za vizuelizaciju, kao i C-kompajler prilagođen DSP procesoru MAS 35xx preduzeća Micronas. Tokom rada na sintezi govora, razvili smo i alat za unos akcenatsko-morfološkog rečnika srpskog jezika, kao i alat za efikasno kreiranje morfološki anotiranog korpusa.

W150tf1000 je baza 150 izolovano izgovorenih reči, koje je izgovorilo 600-1000 govornika. Snimljena je preko telefonske mreže, pomoću Dialogic-ove CTI kartice, na disk računara u formatu: mono PCM, 8 ili 16 bita/odmerku, 8000 odmeraka/sekundi. Baza sadrži izgovore dana u nedelji, meseca u godini, horoskopskih znaka, geografskih pojmova (država, grad, reka, planina, more, okean,...), reči za kretanje kroz menije u IVR aplikacijama (informacije, račun, tekući,...), komandnih reči (kreni, stani, napred, nazad...), i brojevi: 0-9, 10-19, 20, 30,... 90, 100, 200,... 900, 1000, 1000000, kao i neke njihove varijante. Osim standardne dokumentacije, baza sadrži prateće tekstualne fajlove sa dodatnim informacijama o položaju granica između glasova u pojedinim rečima. Sadržaj baze smešten je na dva CD-a.

IVG10tf100n je baza namenjena istraživanju u oblasti identifikacije i verifikacije govornika, konkretno za prepoznavanje govornika na osnovu izgovorenih cifara preko telefona. Snimanje se ponavlja jednom mesečno sa po oko 100 govornika. Vrši se preko telefonske mreže, pomoću Dialogic-ove CTI kartice. Snima se na disk računara u formatu: mono PCM, 16 bita/odmerku, 8000 odmeraka/sekundi. Pri svakom pozivu snimi se ime i prezime pozivaoca, broj telefona sa kojeg zove, i dve fiksne i još deset slučajnih sekvenci od po četiri cifre. Neki pozivaoci su učestvovali u snimanju svakog meseca (na njihov glas se može obučiti sistem za prepoznavanje), a neki su se javili samo jednom (njigov glas može se iskoristiti za testiranje verovatnoće pogrešne identifikacije).

IVG10tf100n i W150tf1000 govorne baze sadrže i izgovorene telefonske brojeve, odnosno slučajne nizove brojeva, što može da se upotrebi za testiranje prepoznavanja vezano izgovorenih cifara.

S70W100s120 je baza originalno snimljena na magnetofonske trake 1983. godine u gluvoj sobi ETF u Beogradu. Snimljeno je 120 govornika koji su izgovorili po 70 rečenica i još 100 izolovano izgovorenih govornih celina (60 reči, cifre 0-9 i 30 fonema). U okviru projekta AlfaNum izvršeno je presnimavanje ovih traka na računar i kasnije na CD. Format digitalnog zapisa je mono PCM, 16 bita/odmerku, 22050 odmeraka/sekundi. Baza je segmentirana, dokumentovana i labelirana. U komprimovanoj formi baza staje na tri CD-a. Baza je idealna za početak naučno-istraživačkog rada na prepoznavanju kontinualnog govora na srpskom jeziku.

SpeechDat II je baza snimljena po istoimenom standardu. Baza je telefonskog kvaliteta i trenutno obuhvata 500 govornika. Svaki govornik je izgovorio 50 sekvenci koje obuhvataju: imena (ljudi, gradova, firmi), cifre, iznose, datume, izolovane foneme, reči i fraze korišćene u aplikacijama, fonetski bogate rečenice, itd. Snimanje je izvršeno u formatu: mono A-law, 8 bita/odmerku, 8000 odmeraka/sekundi. Cela baza je labelirana i dokumentovana u skladu sa standardom. Pregledanje baze je podrazumevalo obeležavanje svakog šuma i pogrešno izgovorenog fonema, kao i postavljanje granica između fonema. Baza je poslužila za obuku sistema za fonetsko prepoznavanje govora preko telefonske linije.

AN_CASR je baza čije snimanje je još uvek u toku. Snima se po kriterijumima sličnim SpeechDat standardu, ali preko mikrofona u punom spektralnom opsegu. Trenutno obuhvata 30 govornika. Svaki govornik je izgovorio 120 sekvenci koje obuhvataju: imena (ljudi, gradova, firmi), cifre, iznose, datume, izolovane foneme, reči i fratze korišćene u aplikacijama, fonetski bogate rečenice, itd. Snimanje je izvršeno u formatu: mono PCM, 16bita/odmerku, 22050 odmeraka/sekundi. Snimljeni deo baze je u potpunosti pregledan i labeliran. Ova baza, zajedno sa S70W100s120 treba da posluži za obuku sistema za prepoznavanje kontinualnog govora sa velikim rečnicima.

TTSlab2g2s je baza dvoglasa i dvosloga srpskog jezika namenjena razvoju TTS sistema. Snimljena je u laboratorijskim uslovima u formatu: mono PCM, 16 bita/odmerku, 44100 odmeraka/sekundi. Dvoglasi su snimljeni kako u okviru smislenih reči, tako i u rečima bez značenja. Snimljeni su i dvoslozi (počinju u jednom vokalu i završavaju u sledećem) sa najčešćim konsonantskim grupama.

TTSlsMarina je baza koja obuhvata dva sata teksta na srpskom jeziku, odabranog tako da je pogodna za korišćenje u TTS sistemu koji uzima govorne segmente iz velike baze (videti AlfaNumTTS.pdf). Snimljena je u studijskim uslovima u formatu: mono PCM, 16bita/odmerku, 22050 odmeraka/sekundi. Baza je pregledana, labelirana i pitch-markirana. Pregledanje je podrazumevalo obeležavanje stepena oštećenja svakog fonema, obeležavanje otvorenih, odnosno zatvorenih vokala, kao i mesta gde je došlo do poremećaja rada glasnih žica (vocal-fry).

TTSlsMarica je baza koja obuhvata dva sata teksta na hrvatskom jeziku, odabranog tako da je pogodna za korišćenje u TTS sistemu koji uzima govorne segmente iz velike baze (videti AlfaNumTTS.pdf). Snimljena je u studijskim uslovima u formatu: mono PCM, 16bita/odmerku, 22050 odmeraka/sekundi. Baza je pregledana, labelirana i pitch-markirana. Pregledanje je podrazumevalo obeležavanje stepena oštećenja svakog fonema, obeležavanje otvorenih, odnosno zatvorenih vokala, kao i mesta gde je došlo do poremećaja rada glasnih žica (vocal-fry).

TTSlsMarija je baza koja obuhvata dva sata teksta odabranog tako da je pogodna za korišćenje u TTS sistemu koji uzima govorne segmente iz velike baze (videti AlfaNumTTS.pdf). Snimljena je u studijskim uslovima u formatu: mono PCM, 16bita/odmerku, 22050 odmeraka/sekundi. Baza je pregledana, labelirana i pitch-markirana. Pregledanje je podrazumevalo obeležavanje stepena oštećenja svakog fonema, obeležavanje otvorenih, odnosno zatvorenih vokala, kao i mesta gde je došlo do poremećaja rada glasnih žica (vocal-fry). Za snimanje ove baze uzeta je profesionalna govornica čiji je glas odabran između 5 kandidatkinja (videti ETRAN2003.pdf). Ova baza iskorišćena je i za automatsku konverziju ženskog glasa u muški, što omogućuje sintezu govora muškim glasom.

TTSlsSnezana je baza koja obuhvata deset sati teksta odabranog tako da je pogodna za korišćenje u TTS sistemu koji uzima govorne segmente iz velike baze (videti AlfaNumTTS.pdf). Snimljena je u studijskim uslovima u formatu: mono PCM, 16bita/odmerku, 44100 odmeraka/sekundi. Baza je pregledana, labelirana i pitch-markirana. Pregledanje je podrazumevalo obeležavanje stepena oštećenja svakog fonema, obeležavanje otvorenih, odnosno zatvorenih vokala, kao i mesta gde je došlo do poremećaja rada glasnih žica (vocal-fry). Za svaku reč obeležena je vrsta reči, kao i vrednosti odgovarajućih morfoloških kategorija i akcentuacija. Na određenom delu baze (oko 40%) obeleženi su i položaji i vrste granica između pojedinih sintaksno-prozodijskih celina, kao i rečenični fokus, što čini ovu bazu pogodnom i za obuku sistema za predikciju prozodijskih obeležja govora. Za snimanje ove baze uzeta je profesionalna govornica čiji je glas odabran između 10 kandidatkinja.

Morfološko-akcenatski rečnik srpskog jezika predstavlja bazu podataka koja sadrži izvedene oblike reči srpskog jezika, pri čemu svaki pojedinačni unos u rečnik, pored oznake vrste reči i niza oznaka vrednosti morfoloških kategorija, sadrži i podatke o akcentuaciji svakog unosa, kao i podatke o osnovnom obliku reči, neophodne za lematizaciju (videti Akcenatski_recnik.pdf). Primer unosa u ovaj rečnik bio bi:

Vb-p-1-- dobićemo (dobiti) [\000]

Morfološke kategorije koje se obeležavaju zavisne su od vrste reči, tako da se, primera radi, kod glagola obeležavaju oblik, rod, broj i lice, pri čemu se vrednosti roda, broja i lica obeležavaju samo ako su primenljive za dati oblik. U konkretnom primeru radi se o prvom licu (1) množine (p) glagola (V) dobiti u futuru (b). Poslednja verzija rečnika obuhvata oko 4,4 miliona izvedenih oblika reči, čemu odgovara oko 102.000 osnovnih oblika. Format unosa u rečnik predviđa i posebno definisanje fonetske transkripcije (za unose za koje je to potrebno), i oko 2.000 unosa odnosi se na često korišćene reči iz nekih stranih jezika. Rečnik je rađen na osnovu Rečnika srpskohrvatskog jezika Matice srpske, Rečnika SANU, kao i različitih drugih izvora, a dopunjavan je i rečima koje nisu nađene u rečnicima ali su otkrivene automatskom pretragom velike količine tekstova u elektronskom formatu.

Morfološko-akcenatski rečnik hrvatskog jezika predstavlja bazu podataka koja sadrži izvedene oblike reči hrvatskog jezika, pri čemu svaki pojedinačni unos u rečnik, pored oznake vrste reči i niza oznaka vrednosti morfoloških kategorija, sadrži i podatke o akcentuaciji svakog unosa, kao i podatke o osnovnom obliku reči, neophodne za lematizaciju. Primer unosa u ovaj rečnik bio bi:

Vc------ dobit (dobiti) [\0]

Morfološke kategorije koje se obeležavaju zavisne su od vrste reči, tako da se, primera radi, kod glagola obeležavaju oblik, rod, broj i lice, pri čemu se vrednosti roda, broja i lica obeležavaju samo ako su primenljive za dati oblik. U konkretnom primeru radi se o infinitivu (c) glagola (V) dobiti, konkretno o obliku koji se upotrebljava za građenje futura, s ispuštenim krajnjim i. Poslednja verzija rečnika obuhvata oko 4,1 milion izvedenih oblika reči, čemu odgovara oko 97.000 osnovnih oblika. Format unosa u rečnik predviđa i posebno definisanje fonetske transkripcije (za unose za koje je to potrebno), i oko 500 unosa odnosi se na često korišćene reči iz nekih stranih jezika. Rečnik je rađen na osnovu Rečnika srpskohrvatskog jezika Matice srpske, Rječnika hrvatskoga jezika (V. Anić), kao i različitih drugih izvora, a dopunjavan je i rečima koje nisu nađene u rečnicima ali su otkrivene automatskom pretragom velike količine tekstova u elektronskom formatu.

AlfaNum tekstualni korpus srpskog jezika predstavlja korpus koji obuhvata oko 200.000 reči. Svaka reč u korpusu anotirana je u pogledu vrste reči, vrednosti morfoloških kategorija kao i akcentuacije. Anotacija je u prvoj fazi izvršena pomoću AlfaNum modula za automatsku morfološku anotaciju, čija je tačnost 94% (na "lakšim" tekstovima i veća), a u drugoj fazi su preostale greške ispravljene ručno. Korpus obuhvata mešavinu tekstova kojima odgovaraju različiti funkcionalni stilovi, pretežno naučni, novinarski i administrativni.

Banka stabala zavisnosti na srpskom jeziku predstavlja korpus od 1.148 sintaksno anotiranih rečenica na srpskom jeziku, koje sadrže ukupno 7.117 reči. Anotacija je izvedena u saglasnosti sa standardima Praške banke stabala zavisnosti (eng. Prague Dependency Treebank - PDT), koja je poslužila kao polazna tačka u razvoju sličnih banaka stabala zavisnosti i za neke druge srodne jezike u regionu. Banka je namenjena za različite primene u oblasti obrade prirodnog jezika, pre svega u razumevanju prirodnog jezika u okviru dijaloga ismeđu čoveka i mašine.


Među preko 200 radova na domaćim i međunarodnim konferencijama i u naučnim časopisima i monografijama po značaju se izdvajaju sledeći:

Uticaj tipova i statističkih osobina obeležja u prepoznavanju osnovnih emocija u govoru (engleski)
Milana Bojanić, Vlado Delić, Milan Sečujski
Facta Universitatis, Univerzitet u Nišu, 2014.
2014_facta_esr.pdf

Svest konverzacionih agenata o korisniku i adaptacija na njega (engleski)
Vlado Delić, Milan Gnjatović, Nikša Jakovljević, Branislav Popović, Ivan Jokić, Milana Bojanić
Facta Universitatis, Univerzitet u Nišu, 2014.
2014_facta_agents.pdf

Automatsko generisanje prozodijskih obeležja u okviru sintetizatora govora za hebrejski (engleski)
Branislav Popović, Dragan Knežević, Milan Sečujski, Darko Pekar
Facta
Universitatis, Univerzitet u Nišu, 2014.
2014_facta_hebrew.pdf

Prepoznavanje govornika na osnovu skrivenih Markovljevih modela specifičnih za pojedine foneme (engleski)
Edvin Pakoci, Nikša Jakovljević, Branislav Popović, Dragiša Miškovic, Darko Pekar
SPECOM 2014
Novi Sad, 5-9. septembar 2014.
2014_specom_spk_detect.pdf

Poređenje pristupa automatskom prepoznavanju govornika zasnovanih na linearnoj diskriminantnoj analizi (engleski)
Nikša Jakovljević, Dragiša Mišković, Marko Janev, Milan Sečujski, Vlado Delić
Elektronika ir Elektrotechnika, Tehnološki univerzitet u Kaunasu, 2013.
2013_eie_lda.pdf

Sposobnost diskriminacije prozodijskih i spektralnih obeležja u prepoznavanju emocionalnog govora (engleski)
Vlado Delić, Milana Bojanić, Milan Gnjatović, Milan Sečujski, Slobodan Jovičić
Elektronika ir Elektrotechnika, Tehnološki univerzitet u Kaunasu, 2013.
2013_eie_esr.pdf

Uticaj broja glavnih komponenata uzetih u obzir na tačnost automatskog prepoznavanja govornika (engleski)
Ivan Jokić, Stevan Jokić, Zoran Perić, Milan Gnjatović, Vlado Delić
Elektronika ir Elektrotechnika, Tehnološki univerzitet u Kaunasu, 2012.
2012_eie_pc.pdf

Nov split-and-merge algoritam za hijerarhijsko klasterovanje modela zasnovanih na Gausovim mešavinama (engleski)
Branislav Popović, Marko Janev, Darko Pekar, Nikša Jakovljević, Milan Gnjatović, Milan Sečujski, Vlado Delić
Applied Intelligence, Springer, 2012.
2012_ai.pdf

Automatsko generisanje prozodijskih obeležja u sintezi govora na srpskohrvatskom jeziku zasnovano na regresionim stablima (engleski)
Milan Sečujski, Darko Pekar, Nikša Jakovljević
INTERSPEECH 2011
Firenca, Italija, 28-31. avgust 2011.
2011_interspeech.pdf

Govorne tehnologije za srpski i srodne južnoslovenske jezike (engleski)
Vlado Delić, Milan Sečujski, Nikša Jakovljević, Marko Janev, Radovan Obradović, Darko Pekar
Advances in Speech Recognition (poglavlje u monografiji), SCIYO, 2010.
(link to IntechOpen)

Primene govornih tehnologija u zemljama zapadnog Balkana (engleski)
Darko Pekar, Dragiša Mišković, Dragan Knežević, Nataša Vujnović Sedlar, Milan Sečujski, Vlado Delić
Advances in Speech Recognition (poglavlje u monografiji), SCIYO, 2010.
(link to IntechOpen)

Morfološka anotacija na srpskom jeziku zasnovana na transformacijama (engleski)
Vlado Delić, Milan Sečujski, Aleksandar Kupusinac
CIMMACS 2009
Puerto de la Cruz, Španija, 14-16. decembar 2009.
CIMMACS2009.pdf

Selekcija gausijana na osnovu sopstvenih vrednosti u svrhu prepoznavanja kontinualnog govora na osnovu skrivenih Markovljevih modela sa punim kovarijansnim matricama (engleski)
Marko Janev, Nikša Jakovljević, Darko Pekar, Vlado Delić
Applied Intelligence, Springer, 2009.
AI2009.pdf

Morfološka anotacija kombinovanjem Markovljevih modela i mašinskog učenja (engleski)
Aleksandar Kupusinac, Milan Sečujski
Speech and Language 2009
Beograd, 13-14. novembar 2009.
SL2009.pdf

Normalizacija energije u okviru automatskog prepoznavanja govora (engleski)
Nikša Jakovljević, Marko Janev, Darko Pekar and Dragiša Mišković
Lecture Notes in Computer Science, Vol. 5246, 2008
LNCS2008.pdf

Prikaz AlfaNum sistema za sintezu govora na osnovu teksta (engleski)
Milan Sečujski, Vlado Delić, Darko Pekar, Radovan Obradović, Dragan Knežević
SPECOM 2007
Moskva, 15-18. oktobar 2007.
SPECOM2007.pdf

Pregled istraživanja i razvoja govornih tehnologija na srpskom jeziku i njihovih primena u zemljama zapadnog Balkana (engleski)
Vlado Del
SPECOM 2007
Moskva, 15-18. oktobar 2007.
SPECOM_WBC2007.pdf

Računari sa govornom podrškom kao pomagalo za slepe osobe na srpskom govornom području (engleski)
Vlado Delić, Nataša Vujnović, Milan Sečujski
EUROCON 2005
Beograd, 22-24. novembar 2005.
EUROCON2005.pdf

Opis procedure obuke Alfanum sistema za kontinualno automatsko prepoznavanje govora (engleski)
Jakovljević Nikša, Pekar Darko
EUROCON 2005
Beograd, 22-24. novembar 2005.
EUROCON_CASR2005.pdf

Ocena različitih aspekata kvaliteta sintetizovanog govora (engleski)
Milan Sečujski, Darko Pekar
Govor i jezik 2004
Beograd, 29. novembar-1. decembar 2004.
SL2004.pdf

Obrada govornog signala u algoritmima za prepoznavanje i sintezu govora (engleski)
Vlado Delić, Darko Pekar, Radovan Obradović, Milan Sečujski
Facta Universitatis, 2003.
FACTA2003.pdf

Programski paket AlfaNumCASR - sistem za prepoznavanje kontinualnog govora
Darko Pekar, Radovan Obradović, Vlado Delić
Konferencija DOGS, pp. 49-56,
Bečej, 16-17. maj 2002.

AlfaNumCASR.pdf

AlfaNum sistem za sintezu govora na osnovu teksta na srpskom jeziku (engleski)
Milan Sečujski, Radovan Obradović, Darko Pekar, Ljubomir Jovanov, Vlado Delić
TSD 2002, pp. 237-244,
Brno, 9-12. septembar 2002.
TSD2002_TTS.pdf

AlfaNum sistem za prepoznavanje kontinualnog govora (engleski)
Darko Pekar, Radovan Obradović, Vlado Delić
TSD 2002, demonstracija
Brno, 9-12. septembar 2002.
TSD2002_ASR.pdf

Robustan ASR sistem nezavisan od govornika a zasnovan na CPU (engleski)
Radovan Obradović, Darko Pekar, Srđan Krčo, Vlado Delić, Vojin Šenk
EUROSPEECH’99, Volume 6, pp. 2881-2884,
Budimpešta, 5-10. septembar 1999.
Eurospeech99.pdf

Postupak za smanjenje verovatnoće greške kod produženog telefonskog biranja niza cifara
Vlado Delić i Vojin Šenk
YU patent P-434/97, usvojen 4.3.1999.
Cifre_patent.pdf
Sistem za automatsko traženje zadatog audio-sadržaja u radio i TV programima
Darko Pekar, Stevan Molerov, Goran Kočiš, Robert Vuković
Patent u proceduri usvajanja od 2007.
AM_patent.pdf

SP2: SCOPES PROJEKAT O PROZODIJI GOVORA
Naučno-istraživački projekat finansiran od strane Švajcarske nacionalne fondacije (2014-2016), orijentisan na izučavanje mogućnosti prozodijskog transfera između različitih jezika. Koordinator projekta je Institut IDIAP u Martinjiju, Švajcarska, a preostali učesnici su Fakultet tehničkih nauka Univerziteta u Novom Sadu, Fakultet elektrotehnike i informacionih tehnologija Univerziteta u Skopju, kao i Tehnološki univerzitet u Budimpešti, Mađarska.

AUDIO BIBLIOTEKA ZA OSOBE S INVALIDITETOM
Tehnološki projekat Pokrajinskog sekretarijata za nauku i tehnološki razvoj (2011-2014) koji predstavlja nastavak prethodnog projekta, "Audio biblioteka za slepe i slabovide". U okviru ovog projekta nastavljen je rad na razvoju i implementaciji interfejsa koji će omogućiti proširenje kruga korisnika audio biblioteka i na druge kategorije osoba s invaliditetom.

RAZVOJ DIJALOŠKIH SISTEMA ZA SRPSKI I DRUGE JUŽNOSLOVENSKE JEZIKE
Tehnološki projekat (TR-32035) republičkog Ministarstva nauke i tehnološkog razvoja (2011-2016), usmeren ka uspostavljanju fleksibilnije govorne komunikacije između čoveka i mašine. Projekat okuplja 38 istraživača iz 6 naučno-istraživačkih institucija iz Srbije, kao i 5 istraživača iz inostranstva.

SINTEZA GOVORA NA PRENOSIVIM UREĐAJIMA (TESTED)
TESTED (Text-to-Speech for Embedded Devices) je međunarodni EUREKA projekat (E!-TESTED, 2009-2011), sproveden u saradnji sa preduzećem "Alpineon" iz Ljubljane (www.alpineon.com). Cilj projekta bio je unapređenje funkcionalnosti postojećih rešenja za sintezu govora na osnovu teksta na srpskom i slovenačkom jeziku, te razvoj verzija postojećih sistema prilagođenih okruženju prenosivih uređaja.

GOVORNA KOMUNIKACIJA ČOVEK-MAŠINA
Tehnološki projekat (TR-11001) republičkog Ministarstva nauke i zaštite životne sredine (2008-2010), usmeren ka daljem razvoju i podizanju kvaliteta govornih tehnologija. U projektu je pod rukovodstvom prof. dr Vlada Delića učestvovalo 22 istraživača sa više naučno-istraživačkih institucija u Srbiji.

RAZVOJ GOVORNIH TEHNOLOGIJA NA SRPSKOM JEZIKU I NJIHOVA PRIMENA U "TELEKOMU SRBIJA"
Tehnološki projekat (TR-6144A) republičkog Ministarstva nauke i zaštite životne sredine (2005-2007) uz participaciju "Telekoma Srbija", usmeren ka daljem razvoju i podizanju kvaliteta govornih tehnologija, kao i njihovoj primeni u servisima "Telekoma Srbija". U projektu je pod rukovodstvom prof. dr Vlada Delića učestvovalo 22 istraživača sa više univerziteta u Srbiji.

INTELIGENTNI ČITAČ ELEKTRONSKE POŠTE (iTEMA)
iTEMA je međunarodni EUREKA projekat (E!3864, 2007-2009), sproveden u saradnji sa preduzećem "Alpineon" iz Maribora (www.alpineon.com). Cilj projekta bio je razvoj višejezičnog čitača elektronske pošte kome se pristupa putem telefona. Zahvaljujući ovom sistemu, korisnici mogu da preslušavaju primljene e-mail poruke na više evropskih jezika: slovenačkom, srpskom, hrvatskom, bosanskom i makedonskom. Takođe su u mogućnosti da odaberu neki od ponuđenih tipskih odgovora na e-mail koji su primili, kao i da sačuvaju ili obrišu pojedine poruke.

AUDIO-BIBLIOTEKA ZA SLEPE I SLABOVIDE
Projekat Pokrajinskog sekretarijata za nauku i tehnološki razvoj (2005-2006), u okviru kog je informacioni sistem koji omogućuje pristup informacijama koje su uskladištene u tekstualnom obliku, ali se korisniku predstavljaju u vidu sintetizovanog govora. Prva audio-biblioteka instalirana je u Školi za učenike oštećenog vida "Veljko Ramadanović" u Zemunu (www.skolaveljkoramadanovic.edu.rs), a inicijalni sistem u međuvremenu je u nekoliko navrata proširivan novim funkcionalnostima kao što su pristup preko Interneta, podrška većem broju jezika te efikasnija administracija. Sistem ima brojne prednosti u odnosu na klasičnu biblioteku Brailleovih knjiga i zvučnih zapisa - daleko je jednostavniji i jeftiniji za održavanje, omogućava simultan pristup većeg broja korisnika istoj knjizi, kao i udaljeni pristup i mogućnost kopiranja knjige u vidu zvučnog zapisa. Inicijalni rad na projektu finansirala je britanska nevladina organizacija DFID.

KONTAKT
U toku 2004. realizovan je projekat "KONTAKT". Cilj ovog projekta je realizacija interaktivnog telefonskog portala, kao i interaktivnog govornog Web portala, koji služi kao svojevrsno mesto okupljanja osoba oštećenog vida. Tu one mogu da dobiju informacije o mogućnostima za obrazovanje, pa i zaposlenje - sve uz pomoć govornih tehnologija. Pored dnevnih informacija ažuriranih sa četiri nacionalna novinska sajta, portal daje informacije i o linkovima na kojima je moguće naći knjige i časopise u elektronskoj formi koje je moguće preuzeti sa Interneta i preslušati uz pomoć sintetizatora govora. Projekat su inicijalno finansirali OEBS, Pokrajinski sekretarijat za nauku i tehnološki razvoj, kao i Ministarstvo kulture i medija Republike Srbije.

RAČUNARSKI REČNIK ZA SLEPE
U maju 2004. završen je rad na "Računarskom rečniku za slepe", CD-u sa elektronskim izdanjem "Kompjuterskog rečnika za neupućene" Dana Gookina i Sandre Hardin Gookin u izdanju beogradske "Mikro knjige", kao i integrisanim sintetizatorom govora koji naglas čita objašnjenja više od 2.000 pojmova iz oblasti računarske tehnologije. Elektronsko izdanje rečnika namenjeno osobama oštećenog vida obuhvata audio-vizuelni korisnički interfejs posebno prilagođen potrebama osoba oštećenog vida. Ovaj rečnik je od izuzetne pomoći svima koji počinju da se upoznaju sa svetom računara. Projekat je iniciralo "Udruženje intelektualaca i umetnika oštećenog vida Srbije", a pod pokroviteljstvom Ministarstva za obrazovanje Republike Srbije.

VIZIJA
Početkom 2004. iniciran je projekat "VIZIJA". Cilj projekta je bio da određen broj grupa slepih i slabovidih bude obučen za rad sa novim sintetizatorom govora na srpskom jeziku, kao i prenošenje svog znanja i iskustava na druge, čime je otpočet čitav obrazovni lanac. U okviru ovog lanca projekata preko stotinu ljudi osposobljeno je za pisanu komunikaciju i samostalni pristup informacijama na Internetu, kao i za korišćenje softvera za optičko prepoznavanje znakova i slično. Ovaj projekat u tom smislu predstavlja pomoć slepima i slabovidima u našoj sredini da lakše ostvare svoje zakonom garantovano pravo na obrazovanje i pristup informacijama, što im obezbeđuje veći nivo ravnopravnosti i dati mogućnost da uče, komuniciraju i samostalno rade. Ovaj projekat na taj način doprinosi poboljšanju kvaliteta života osoba oštećenog vida i omogućuje im da se organizuju i lakše uključe u društvenu zajednicu.