Izgradnja i odabir značajki za klasifikaciju dokumenata na hrvatskome jeziku

Sažetak na hrvatskom: Ovaj rad istražuje kako prikupljanje distribucijskih značajki i tvorba n-grama riječi utječe na klasifikaciju dokumenata u odnosu na standardni model reprezentacije teksta kao vreće riječi. Korištenje tih modela iziskuje dodatne računalne resurse, ali oni mogu nositi više infor...

Full description

Permalink: http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:45208/Details
Glavni autor: Trkulja, Sandra (-)
Ostali autori: Šnajder, Jan (Thesis advisor)
Vrsta građe: Drugo
Impresum: Zagreb, S. Trkulja, 2014.
Predmet:
LEADER 02581na a2200241 4500
003 HR-ZaFER
005 20160516012012.0
008 160221s2014 ci ||||| m||| 00| 0 hr d
035 |a (HR-ZaFER)ferid1275 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
100 1 |a Trkulja, Sandra  |9 35777 
245 |a Izgradnja i odabir značajki za klasifikaciju dokumenata na hrvatskome jeziku :  |b završni rad /  |c Sandra Trkulja ; [mentor Jan Šnajder]. 
246 1 |a Feature Construction and Selection for Document Classification in Croatian Language  |i Naslov na engleskom:  
260 |a Zagreb,  |b S. Trkulja,  |c 2014. 
300 |a 23 str. ;  |c 30 cm +  |e CD-ROM 
502 |b preddiplomski studij  |c Fakultet elektrotehnike i računarstva u Zagrebu  |g smjer: Računarska znanost, šifra smjera: 41, datum predaje: 2014-06-13, datum završetka: 2014-07-14 
520 3 |a Sažetak na hrvatskom: Ovaj rad istražuje kako prikupljanje distribucijskih značajki i tvorba n-grama riječi utječe na klasifikaciju dokumenata u odnosu na standardni model reprezentacije teksta kao vreće riječi. Korištenje tih modela iziskuje dodatne računalne resurse, ali oni mogu nositi više informacija nego što ih nosi reprezentacija korištenjem vreće riječi. Distribucijske značajke dobivene su ekstrakcijom informacija o pozicijama u dokumentu na kojima se riječi pojavljuju, dok je važnost n-grama ispitana pomoću četiri funkcije za evaluaciju značajki. Rezultati su uspoređeni s modelom vreće riječi. 
520 3 |a Sažetak na engleskom: In this work we investigate how does extracting distributional features and using word n-grams for document classification compare to using bag of words --- a more traditional model for document representation. Extraction of these features requires additional computational resources, but they can carry more information about the document compared to the bag of words baseline. In order to extract distributional features we use positions of word occurrences in a document. N-grams are rated by evaluation of four feature evaluation functions in order to select only useful n-grams which are then treated as a single feature. Results obtained by using these models are compared with the bag of words model. 
653 1 |a Obrada prirodnog jezika, strojno učenje, vreća riječi, distribucijske značajke, n-gram, stroj potpornih vektora, liblinear 
653 1 |a Natural language processing, machine learning, bag of words, distributional features, n-gram, support vector machine, liblinear 
700 1 |a Šnajder, Jan  |4 ths  |9 19016 
942 |c Z  |2 udc 
999 |c 45208  |d 45208