|
|
|
|
LEADER |
02581na a2200241 4500 |
003 |
HR-ZaFER |
005 |
20160516012012.0 |
008 |
160221s2014 ci ||||| m||| 00| 0 hr d |
035 |
|
|
|a (HR-ZaFER)ferid1275
|
040 |
|
|
|a HR-ZaFER
|b hrv
|c HR-ZaFER
|e ppiak
|
100 |
1 |
|
|a Trkulja, Sandra
|9 35777
|
245 |
|
|
|a Izgradnja i odabir značajki za klasifikaciju dokumenata na hrvatskome jeziku :
|b završni rad /
|c Sandra Trkulja ; [mentor Jan Šnajder].
|
246 |
1 |
|
|a Feature Construction and Selection for Document Classification in Croatian Language
|i Naslov na engleskom:
|
260 |
|
|
|a Zagreb,
|b S. Trkulja,
|c 2014.
|
300 |
|
|
|a 23 str. ;
|c 30 cm +
|e CD-ROM
|
502 |
|
|
|b preddiplomski studij
|c Fakultet elektrotehnike i računarstva u Zagrebu
|g smjer: Računarska znanost, šifra smjera: 41, datum predaje: 2014-06-13, datum završetka: 2014-07-14
|
520 |
3 |
|
|a Sažetak na hrvatskom: Ovaj rad istražuje kako prikupljanje distribucijskih značajki i tvorba n-grama riječi utječe na klasifikaciju dokumenata u odnosu na standardni model reprezentacije teksta kao vreće riječi. Korištenje tih modela iziskuje dodatne računalne resurse, ali oni mogu nositi više informacija nego što ih nosi reprezentacija korištenjem vreće riječi. Distribucijske značajke dobivene su ekstrakcijom informacija o pozicijama u dokumentu na kojima se riječi pojavljuju, dok je važnost n-grama ispitana pomoću četiri funkcije za evaluaciju značajki. Rezultati su uspoređeni s modelom vreće riječi.
|
520 |
3 |
|
|a Sažetak na engleskom: In this work we investigate how does extracting distributional features and using word n-grams for document classification compare to using bag of words --- a more traditional model for document representation. Extraction of these features requires additional computational resources, but they can carry more information about the document compared to the bag of words baseline. In order to extract distributional features we use positions of word occurrences in a document. N-grams are rated by evaluation of four feature evaluation functions in order to select only useful n-grams which are then treated as a single feature. Results obtained by using these models are compared with the bag of words model.
|
653 |
|
1 |
|a Obrada prirodnog jezika, strojno učenje, vreća riječi, distribucijske značajke, n-gram, stroj potpornih vektora, liblinear
|
653 |
|
1 |
|a Natural language processing, machine learning, bag of words, distributional features, n-gram, support vector machine, liblinear
|
700 |
1 |
|
|a Šnajder, Jan
|4 ths
|9 19016
|
942 |
|
|
|c Z
|2 udc
|
999 |
|
|
|c 45208
|d 45208
|