MARC: Izgradnja i odabir značajki za klasifikaciju dokumenata na hrvatskome jeziku

Izgradnja i odabir značajki za klasifikaciju dokumenata na hrvatskome jeziku

Sažetak na hrvatskom: Ovaj rad istražuje kako prikupljanje distribucijskih značajki i tvorba n-grama riječi utječe na klasifikaciju dokumenata u odnosu na standardni model reprezentacije teksta kao vreće riječi. Korištenje tih modela iziskuje dodatne računalne resurse, ali oni mogu nositi više infor...

Full description

Permalink:	http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:45208/Details
Glavni autor:	Trkulja, Sandra (-)
Ostali autori:	Šnajder, Jan (Thesis advisor)
Vrsta građe:	Drugo
Impresum:	Zagreb, S. Trkulja, 2014.
Predmet:	Obrada prirodnog jezika, strojno učenje, vreća riječi, distribucijske značajke, n-gram, stroj potpornih vektora, liblinear Natural language processing, machine learning, bag of words, distributional features, n-gram, support vector machine, liblinear


LEADER	02581na a2200241 4500
003	HR-ZaFER
005	20160516012012.0
008	160221s2014 ci \|\|\|\|\| m\|\|\| 00\| 0 hr d
035			\|a (HR-ZaFER)ferid1275
040			\|a HR-ZaFER \|b hrv \|c HR-ZaFER \|e ppiak
100	1		\|a Trkulja, Sandra \|9 35777
245			\|a Izgradnja i odabir značajki za klasifikaciju dokumenata na hrvatskome jeziku : \|b završni rad / \|c Sandra Trkulja ; [mentor Jan Šnajder].
246	1		\|a Feature Construction and Selection for Document Classification in Croatian Language \|i Naslov na engleskom:
260			\|a Zagreb, \|b S. Trkulja, \|c 2014.
300			\|a 23 str. ; \|c 30 cm + \|e CD-ROM
502			\|b preddiplomski studij \|c Fakultet elektrotehnike i računarstva u Zagrebu \|g smjer: Računarska znanost, šifra smjera: 41, datum predaje: 2014-06-13, datum završetka: 2014-07-14
520	3		\|a Sažetak na hrvatskom: Ovaj rad istražuje kako prikupljanje distribucijskih značajki i tvorba n-grama riječi utječe na klasifikaciju dokumenata u odnosu na standardni model reprezentacije teksta kao vreće riječi. Korištenje tih modela iziskuje dodatne računalne resurse, ali oni mogu nositi više informacija nego što ih nosi reprezentacija korištenjem vreće riječi. Distribucijske značajke dobivene su ekstrakcijom informacija o pozicijama u dokumentu na kojima se riječi pojavljuju, dok je važnost n-grama ispitana pomoću četiri funkcije za evaluaciju značajki. Rezultati su uspoređeni s modelom vreće riječi.
520	3		\|a Sažetak na engleskom: In this work we investigate how does extracting distributional features and using word n-grams for document classification compare to using bag of words --- a more traditional model for document representation. Extraction of these features requires additional computational resources, but they can carry more information about the document compared to the bag of words baseline. In order to extract distributional features we use positions of word occurrences in a document. N-grams are rated by evaluation of four feature evaluation functions in order to select only useful n-grams which are then treated as a single feature. Results obtained by using these models are compared with the bag of words model.
653		1	\|a Obrada prirodnog jezika, strojno učenje, vreća riječi, distribucijske značajke, n-gram, stroj potpornih vektora, liblinear
653		1	\|a Natural language processing, machine learning, bag of words, distributional features, n-gram, support vector machine, liblinear
700	1		\|a Šnajder, Jan \|4 ths \|9 19016
942			\|c Z \|2 udc
999			\|c 45208 \|d 45208

Izgradnja i odabir značajki za klasifikaciju dokumenata na hrvatskome jeziku

Slični primjerci