Percepcijska utemeljenost kepstralnih mjera udaljenosti za primjene u obradi govora

Jedna od danas najčešće korištenih mjera u automatskom prepoznavanju govora i govornika je mjera Euklidske udaljenosti MFCC vektora. Algoritam za izračunavanje mel frekvencijskih kepstralnih koeficijenata zasniva se na filtarskom slogu kod kojeg su pojasi ekvidistantno raspoređeni na percepcijski mo...

Full description

Permalink: http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:33042/Details
Glavni autor: Vasilijević, Antonio (-)
Ostali autori: Petrinović, Davor (Thesis advisor)
Vrsta građe: Knjiga
Jezik: hrv
Impresum: Zagreb : A. Vasilijević ; Fakultet elektrotehnike i računarstva, 2008.
LEADER 04158nam a2200229uu 4500
005 20190211110457.0
008 s2008 ci a |||||||||| ||hrv|d
035 |a HR-ZaFER 37469 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
041 |a hrv 
080 |a 004.934  |h Obrada podataka o uzorcima  |j Obrada govornih imformacija  |e 004.93  |9 2964 
100 1 |9 31908  |a Vasilijević, Antonio 
245 |a Percepcijska utemeljenost kepstralnih mjera udaljenosti za primjene u obradi govora :  |b magistarski rad /  |c Antonio Vasilijević ; [mentor Davor Petrinović] 
260 |a Zagreb :  |b A. Vasilijević ; Fakultet elektrotehnike i računarstva,  |c 2008. 
300 |a iv, 79 str. :  |b graf.prikazi ;  |c 30 cm +  |e CD 
504 |a Bibliografija str. 72-75 
520 |a Jedna od danas najčešće korištenih mjera u automatskom prepoznavanju govora i govornika je mjera Euklidske udaljenosti MFCC vektora. Algoritam za izračunavanje mel frekvencijskih kepstralnih koeficijenata zasniva se na filtarskom slogu kod kojeg su pojasi ekvidistantno raspoređeni na percepcijski motiviranoj mel skali. Na vrijednost mel kepstralnog vektora, a samim time i na svojstva kepstralne mjere udaljenosti glasova, utječe veći broj parametara sustava za kepstralnu analizu. Tema ovog rada je ispitati usklađenost MFCC mjere sa stvarnim percepcijskim razlikama za različite vrijednosti parametara analize. Analizom parametara mel filtarskog sloga utvrdili smo da filtar sa 24 pojasa, širine 220 mel-a i faktorom preklapanja filtra većim ili jednakim jedan, daje optimalne SD mjere koje se najbolje slažu s percepcijom. Za takav mel filtarski slog granica čujnosti razlike između glasova je 0.4 – 0.5 dB, mjereno SD RMS razlikom potpunih mel kepstralnih vektora. Također, pokazat ćemo da je korištenje mel kepstralnog vektora odrezanog na konačnu dužinu (12 koeficijenata) opravdano za prepoznavanje govora, ali da bi moglo biti upitno u primjenama prepoznavanja govornika. Analizirali smo i utjecaj aliasing-a u kepstralnoj domeni na mjere udaljenosti glasova. Utvrđena je izrazita koreliranost SD razlika izračunatih iz aperiodskog i periodičkog mel kepstra iz čega zaključujemo da je utjecaj aliasing-a generalno zanemariv. Postoje rijetke iznimke kod kojih je utjecaj aliasing-a prisutan, te su one posebno analizirane. Ključne riječi: obrada govora, prepoznavanje govora, MFCC, mel kepstar, aliasing, SD mjera, homomorfna analiza, LSF parametri, LPC parametri  
520 |a Currently, one of the most widely used distances in speech and speaker recognition is the Euclidean distance between MFCCs. Mel frequency cepstral coefficients are based on filter bank algorithm whose filters are equally spaced on a perceptually motivated mel frequency scale. The value of Mel cepstral vector, as well as the characteristics of cepstral distance, is determined by a number of parameters used in Mel cepstral analysis. The topic of this work is to examine compatibility of MFCC measure with human perception for different values of parameters in the analysis. By analysing Mel filter bank parameters it is found that filter bank with 24 bands, 220 mels bandwidth and band overlap coefficient equal and higher than one gives optimal SD distance measures. For this kind of Mel filter bank, difference between vowels can be recognised for full-length Mel cepstral SD RMS measure higher than 0.4 – 0.5 dB. Further on, it will be shown that usage of short Mel cepstral vector (12 coefficients) is justified for speech recognition, but arguable for speaker recognition. We analysed the impact of aliasing in cepstral domaine on cepstral distortion measures. The results have shown high correlation of SD distances calculated from aperiodic and periodic Mel cepstrum, leading to the conclusion that the impact of aliasing is generally minor. There are rare exceptions where aliasing is present, and they were also analysed. Keywords: digital speech processing, speech recognition, MFCC, Mel cepstrum, aliasing, SD measure, homomorphic analysis, LSF parameters, LPC parameters.  
700 |4 ths  |9 13132  |a Petrinović, Davor 
942 |c M  |2 udc 
990 |a 32952 
999 |c 33042  |d 33042