Konvolucijski modeli za raspoznavanje događaja u slijedu slika

Sažetak na hrvatskom: Ovaj rad opisuje konvolucijske modele za analizu događaja u slijedu slika. Opisuju se razne arhitekture koje su pogodne za prepoznavanje akcija i događaja. Specifično u ovom radu se radilo istraživanje o problemu čitanja s usana, gdje su se sljedovi slika pomaka ljudskih usana...

Full description

Permalink: http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:48495/Details
Glavni autor: Farszky, Igor (-)
Ostali autori: Šegvić, Siniša (Thesis advisor)
Vrsta građe: Drugo
Impresum: Zagreb, I. Farszky, 2018.
Predmet:
LEADER 03862na a2200229 4500
003 HR-ZaFER
008 160221s2018 ci ||||| m||| 00| 0 hr d
035 |a (HR-ZaFER)ferid5535 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
100 1 |a Farszky, Igor 
245 1 0 |a Konvolucijski modeli za raspoznavanje događaja u slijedu slika :  |b diplomski rad /  |c Igor Farszky ; [mentor Siniša Šegvić]. 
246 1 |a Convolutional models for event recognition in video  |i Naslov na engleskom:  
260 |a Zagreb,  |b I. Farszky,  |c 2018. 
300 |a 47 str. ;  |c 30 cm +  |e CD-ROM 
502 |b diplomski studij  |c Fakultet elektrotehnike i računarstva u Zagrebu  |g smjer: Računarska znanost, šifra smjera: 56, datum predaje: 2018-06-29, datum završetka: 2018-07-18 
520 3 |a Sažetak na hrvatskom: Ovaj rad opisuje konvolucijske modele za analizu događaja u slijedu slika. Opisuju se razne arhitekture koje su pogodne za prepoznavanje akcija i događaja. Specifično u ovom radu se radilo istraživanje o problemu čitanja s usana, gdje su se sljedovi slika pomaka ljudskih usana prosljeđivali kroz razne konvolucijske modele na razne načine kako bi se istražila najpogodnija metoda za takvu vrstu problema koja bi se mogla primijeniti u mnogim područjima ljudskog rada, kao što su pomoć osobama sa slušnim poteškoćama, analiza video snimaka u sigurnosnim mjerama, kreiranjem zvukovnih izgovora i još mnogo toga. Podaci su filtrirane video snimke reportera. Predložene su dvije glavne arhitekture na kojima se baziraju svi modeli, VGG-M i VGG-16. Nad tim arhitekturama su modelirani specifični modeli EF i EF-3 koji se temelje na ranom stapanju sekvenci slika, te MT i MT-3 koji s druge strane prvo uče pojedinačne slike, gdje svaka slika prolazi kroz jedan toranj, a nakon toga se tek vrši stapanje sekvence namijenjeno za prepoznavanje događaja u slikama. Ukratko su prikazani rezultati modela te je donesen zaključak kako metoda tornjeva radi bolje od ranog stapanja. Na samom kraju, opisano je i kako je moguće riješiti problem čitanja s usana s predloženim konvolucijskim modelima i kako takav sustav radi sa solidnom preciznošću.  
520 3 |a Sažetak na engleskom: This paper describes convolutional models for event analysis in the image sequences. Work describes various architectures suitable for recognizing actions and events. Particularly in this paper is shown a way of resolving a problem of reading from the lips, where the images of human faces with focus on the lips, are transmitted through various convoluational models in various forms to explore the most appropriate method for such a problem that could be applied in many areas of human work as helping people with auditory difficulties, analyzing video footage in security measures, creating audio pronunciation and more. The data for learning such models are videos of television reporters speaking. All models are based on two main architectures, VGG-16 VGG-16. There is also four main models based on those architecutres, EF and EF-3 are early fusion models where point is fuse sequence of images on the beggining and then learn the model, and MT and MT-3 models which first learning individual images passing each image trough a separate tower, and then fusing them and learning their actions. The results of the models were presented and a conclusion was drawn that the method of the multiple towers was better then the early fusion. For the conclusion, this work describes how it is possible to solve the problem of reading from the lips and how those models and systems works with firm precision.  
653 1 |a Konvolucijski modeli  |a sekvence slika  |a čitanje s usana  |a nadzirano učenje  |a klasifikacija 
653 1 |a Convolutional models  |a image sequences  |a lip reading  |a supervised learning  |a classification 
700 1 |a Šegvić, Siniša  |4 ths 
942 |c Y 
999 |c 48495  |d 48495