Raspoznavanje i sinteza hrvatskoga govora kontekstno ovisnim skrivenim Markovljevim modelima

Doktorska disertacija opisuje rad na razvoju sustava za raspoznavanje i sintezu hrvatskoga govora kontekstno ovisnim akustičnim modelima. Kontekstno ovisni akustični modeli obaju sustava zasnivaju se na formalizmu skrivenih Markovljevih modela i modeliraju iste akustične jedinice trifone. Izgrađeni...

Full description

Permalink: http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:30197/Details
Glavni autor: Martinčić-Ipšić, Sandra (-)
Ostali autori: Ribarić, Slobodan (Thesis advisor)
Vrsta građe: Knjiga
Jezik: hrv
Impresum: Zagreb : S. Martinčić-Ipšić ; Fakultet elektrotehnike i računarstva, 2007.
LEADER 05610nam a2200253uu 4500
005 20190215145349.0
008 s2007 ci a |||||||||| ||hrv|d
035 |a HR-ZaFER 34605 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
041 |a hrv 
080 |a 004.934.1'1  |h Računalna znanost i tehnologija  |j Prepoznavanje riječi  |e 004  |9 2940 
080 |a 681.84.087.7  |h RAZLIČITE NAPRAVE ZA MODIFICIRANJE ZVUKA  |j STEREO AKUSTIKA U SNIMANJU I REPRODUCIRANJU ZVUKA. POSTIZANJE DUBINE I USMJERENOG ZVUKA  |e 681.84.087  |9 2582 
080 |a 519.6  |h KOMBINATORIKA. RAČUN VJEROJATNOSTI  |j NUMERIČKA ANALIZA. PROGRAMIRANJE RAČUNALA.  |e 519  |9 2733 
100 1 |9 31366  |a Martinčić-Ipšić, Sandra 
245 |a Raspoznavanje i sinteza hrvatskoga govora kontekstno ovisnim skrivenim Markovljevim modelima :  |b doktorska disertacija /  |c Sanda Martinčić-Ipšić ; [mentor Slobodan Ribarić] 
260 |a Zagreb :  |b S. Martinčić-Ipšić ; Fakultet elektrotehnike i računarstva,  |c 2007. 
300 |a XVIII, 193 str. :  |b ilustr. ;  |c 30 cm. +  |e CD 
504 |a Bibliografija str. 149-157 
520 |a Doktorska disertacija opisuje rad na razvoju sustava za raspoznavanje i sintezu hrvatskoga govora kontekstno ovisnim akustičnim modelima. Kontekstno ovisni akustični modeli obaju sustava zasnivaju se na formalizmu skrivenih Markovljevih modela i modeliraju iste akustične jedinice trifone. Izgrađeni su zajedničkim postupkom izgradnje akustičnoga modela nad podacima iz hrvatskoga govornoga korpusa te istim fonetskim pravilima. Predložen je skup fonetskih pravila za hrvatski govor, kojim se omogućava kontekstno ovisno akustično modeliranje obaju sustava. Bigramski jezični model uključen je u sustav za raspoznavanje govora. Sustavi su izgrađeni nad podacima iz hrvatskoga govornoga korpusa VEPRAD (vremenske prognoze radio) koji je nastao u okviru ovoga rada, a namijenjen je razvoju sustava govornih tehnologija. Korpus obuhvaća hrvatski govor i pripadajuće transkripcije u ukupnom trajanju od 19 sati. Govor izgovara 37 govornika, a uključuje preko 235000 riječi od kojih 10000 različitih. Tematski je vezan uz problemsku domenu vremenskih prognoza i vijesti, a nastao je snimanjem radijskih dnevnika. U korpusu je obuhvaćen i telefonski govor. Sustav za raspoznavanje hrvatskoga govora izgrađen je za različite problemske domene: prognoze i vijesti, te različite kvalitete govornoga signala: radijski i telefonski govor. Postignuta je 96%-tna točnost raspoznavanja u sustavu za raspoznavanje ograničenoga vokabulara kvalitetnijega govora, te 90%-tna točnost raspoznavanja telefonskoga govora. Sustav za sintezu hrvatskoga govora objektivno je vrednovan sustavom za raspoznavanje, a subjektivno anketiranjem ocjenjivača. Oba načina vrednovanja ukupnu kvalitetu sustava ocjenjuju dobrom i primjerenom za uporabu u sustavima govornih tehnologija. KLJUČNE RIJEČI hrvatski govorni korpus, sustav za raspoznavanje govora, sustav za sintezu govora, skriveni Markovljevi modeli, akustično modeliranje, kontekstno ovisne akustične jedinice, hrvatska fonetska pravila, fonetska stabla odlučivanja  
520 |a This dissertation presents work done on the development of the speech recognition and the speech synthesis system for Croatian language. Context dependent models of both systems use context dependent hidden Markov models triphones. The use of the same formalism enables a common approach to the development of acoustic models of the systems. Context dependent acoustic models are constructed using the Croatian speech corpus VEPRAD. State tying of the context dependent models is performed using 83 proposed Croatian phonetic rules. A bigram language model is used in the speech recognition system. The Croatian speech corpus VEPRAD was recorded, transcribed and annotated from the radio weather forecast and news broadcasted on the national radio. The speech corpus contains 19 hours of speech spoken by 37 professional speakers and meteorologists. Over 235000 words are included in the corpus, 10000 of which are different words. The VEPRAD corpus comprises over 12000 spoken utterances and their word level transcriptions. The weather reports spoken by meteorologists over the telephone are also included in the corpus. The Croatian speech recognition system was constructed for different domains of interest: the weather forecast and news reports. The achieved speech recognition results for the limited weather domain speech are 96% correctness and 90% accuracy for the clean radio speech with 1462 different words and 96% correctness and 90% accuracy for the noisy telephone speech with 1788 different words. The HMM speech synthesis system was evaluated by 21 evaluators and by speech recognition system. The evaluators mean opinion score is used as the overall quality measure of the generated speech. The correctness and the accuracy of the synthesized speech are given by the speech recognition system. Objective and subjective evaluation results of the synthesized speech are satisfactory and they point that some improvement in the prosodic features should be considered. Achieved multispeaker speech recognition results and speech synthesis results are encouraging for further development of Croatian spoken dialog systems. KEYWORDS Croatian speech corpus, the speech recognition system, the speech synthesis system, hidden Markov models, acoustical modelling, the context dependent acoustical units, the Croatian phonetic rules, the phonetic decision trees  
700 |4 ths  |9 4024  |a Ribarić, Slobodan 
942 |c D  |2 udc 
990 |a 32364 
999 |c 30197  |d 30197