dna2vec: vektorska reprezentacija k-torki različite duljine

Sažetak na hrvatskom: Usporedba dijelova genoma obavlja se prilagođavanjem metode word2vec radu s k-torkama. Ispitivana metoda dna2vec omogućuje rad s varijabilnom duljinom k-torki u itervalu [3, 8]. Treniranje izvedbe Skip-Gram koja u obzir uzima kontekst genoma oko k-torke, dobija se pozicija k-to...

Full description

Permalink: http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:49129/Details
Glavni autor: Kutnjak, Mateo (-)
Ostali autori: Šikić, Mile (Thesis advisor)
Vrsta građe: Drugo
Impresum: Zagreb, M. Kutnjak, 2017.
Predmet:
LEADER 02327na a2200229 4500
003 HR-ZaFER
008 160221s2017 ci ||||| m||| 00| 0 hr d
035 |a (HR-ZaFER)ferid5327 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
100 1 |a Kutnjak, Mateo 
245 1 0 |a dna2vec: vektorska reprezentacija k-torki različite duljine :  |b završni rad /  |c Mateo Kutnjak ; [mentor Mile Šikić]. 
246 1 |a dna2vec: vector representations of variable-length k-mers  |i Naslov na engleskom:  
260 |a Zagreb,  |b M. Kutnjak,  |c 2017. 
300 |a 26 str. ;  |c 30 cm +  |e CD-ROM 
502 |b preddiplomski studij  |c Fakultet elektrotehnike i računarstva u Zagrebu  |g smjer: Računarska znanost, šifra smjera: 41, datum predaje: 2017-06-09, datum završetka: 2017-07-10 
520 3 |a Sažetak na hrvatskom: Usporedba dijelova genoma obavlja se prilagođavanjem metode word2vec radu s k-torkama. Ispitivana metoda dna2vec omogućuje rad s varijabilnom duljinom k-torki u itervalu [3, 8]. Treniranje izvedbe Skip-Gram koja u obzir uzima kontekst genoma oko k-torke, dobija se pozicija k-torke u višedimenzionalnom vektorskom prostoru. Kosinusna udaljenost dvije vektorske reprezentacije k-torki daje mjeru njihove sličnosti. Ispitana je i dokazana korelacija kosinusne udaljenosti metodom dna2vec i rezultata algoritma Needleman-Wunsch za par k-torki. Dodatno su prodiskutirani razlozi dugotrajnog učenja te su predložena ubrzanja učenja te poboljšanje efikasnosti ispitanog modela. 
520 3 |a Sažetak na engleskom: Adjustment of known method word2vec is used for comparing parts of genome. Innovation of method dna2vec is possibility to work with variable length k-mers. Training of Skip-Gram, the word2vec derivation, which takes context of k-mers, results with multidimensional representation of k-mers. Cosine distance of two k-mer vector representations gives similarity measure. In this paper correlation between dna2vec cosine distance and Needleman-Wunsch score was tested and proven. Reasons behind prolonged training were discussed and possible solutions for faster learning and better efficiency were submitted. 
653 1 |a dna2vec, k-torke, sličnost, strojno učenje, nouronska mreža 
653 1 |a dna2vec, k-mers, similarity, neural network, machine learning 
700 1 |a Šikić, Mile  |4 ths 
942 |c Z 
999 |c 49129  |d 49129