Efficient semantic image segmentation using pyramidal fusion

Pojava velikih podatkovnih skupova i otpornost konvolucijskih modela omogućili su uspješno treniranje velikih modela za semantičku segmentaciju. Doduše, velik kapacitet modela uzorkuje visoku računsku složenost što onemogućuje primjene u stvarnom vremenu. Razmatramo kompaktne arhitekture koje ganjaj...

Full description

Permalink: http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:52929/Details
Glavni autor: Oršić, Marin (-)
Ostali autori: Šegvić, Siniša (Thesis advisor)
Vrsta građe: Knjiga
Jezik: eng
Impresum: Zagreb : M. Oršić; Fakultet elektrotehnike i računarstva, 2021.
LEADER 04060nam a22002057a 4500
003 HR-ZaFER
005 20220705103600.0
008 220705b ||||| |||| 00| 0 eng d
999 |c 52929  |d 52929 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
041 |b eng 
100 |9 36979  |a Oršić, Marin 
245 |a Efficient semantic image segmentation using pyramidal fusion :  |b doctoral thesis /  |c mentor Siniša Šegvić 
260 |a Zagreb :  |b M. Oršić; Fakultet elektrotehnike i računarstva,  |c 2021. 
300 |a viii, 84 str. :  |b graf. prikazi ;  |c 30 cm. +  |e CD-ROM 
504 |a Bibliografija str. 63-73. 
520 |a Pojava velikih podatkovnih skupova i otpornost konvolucijskih modela omogućili su uspješno treniranje velikih modela za semantičku segmentaciju. Doduše, velik kapacitet modela uzorkuje visoku računsku složenost što onemogućuje primjene u stvarnom vremenu. Razmatramo kompaktne arhitekture koje ganjaju visoku prediktivnu moć usprkos skromnom kapacitetu. Predlažemo novi pristup za semantičku segmentaciju slika temeljenu na spajanju dijeljenih heterogenih reprezentacija izlučenih iz rezolucijske piramide. Predloženi pristup, zvan piramidna fuzija, je naročito učinkovit u gustoj predikciji na slikama velike varijance u skali zbog snažnog regularizacijskog učinka potaknutog dijeljenjem značajki preko rezolucijske piramide. Interpretacija toka donošenja odluke naslućuje kako se naš pristup ponaša kao ansambl jednostavnijih modela, te kako široko vidno polje i jak tok gradijenata pridonose visokoj točnosti. Validacijski i ablacijski eksperimenti podržavaju naše odluke i sugeriraju kako se predloženi pristup uspješno ponaša kao ansambl relativno jednostavnijih modela. Naš najbolji model postiže 76.4\% mIoU na ispitnom podskupu podatkovnog skupa Cityscapes te podržava izvođenje u stvarnom vremenu na ugradbenim računalima niske potrošnje. Ova disertacija opisuje glavne dijelove sustava za semantičku segmentaciju slika temeljenog na dubokim konvolucijskim modelima. Razmatramo konvolucijske kodere za raspoznavanje te dekodere koji su neizostavni u ostvarivanju točnih rezultata. Pokazujemo obilan skup evaluacija razvijene metode u nizu javno dostupnih i domaćih podatkovnih skupova. Konačno, prikazujemo rezultate našeg sudjelovanja u natjecanju Robust Vision Challenge 2020.  
520 |a Emergence of large datasets and resilience of convolutional models have enabled successful training of very large semantic segmentation models. However, high capacity implies high computational complexity and therefore hinders real-time operation. We therefore study compact architectures which aim at high accuracy in spite of modest capacity. We propose a novel semantic segmentation approach based on shared pyramidal representation and fusion of heterogeneous features along the upsampling path. The proposed pyramidal fusion approach is especially effective for dense inference in images with large scale variance due to strong regularization effects induced by feature sharing across the resolution pyramid. Interpretation of the decision process suggests that our approach succeeds by acting as a large ensemble of relatively simple models, as well as due to large receptive range and strong gradient flow towards early layers. Validation and ablation experiments support our design choices and suggest that the proposed approach succeeds by acting as an ensemble of relatively simpler models. Our best model achieves 76.4\% mIoU on Cityscapes test and runs in real time on low-power embedded devices. In this thesis, we describe the main components of a real-time semantic segmentation system based on deep convolutional models. We are considered with convolutional encoders used for recognition, as well as decoders which are crucial for obtaining accurate results. We do extensive evaluation of the developed method over a range of public and domestic datasets. Finally, we present results in the 2020 instance of Robust Vision Challenge. 
700 |4 ths  |9 18165  |a Šegvić, Siniša 
942 |2 udc  |c D