Usporedba metoda za klasifikaciju tekstualnih dokumenata

Sažetak na hrvatskom: Zbog postojanja vrlo velike količine tekstualnih dokumenata potrebno ih je, radi brže, jeftinije i lakše obrade, organizirati, odnosno podijeliti prema zajedničkim svojstvima na zadane klase. Takav postupak nazivamo klasifikacija koja je, osim na tekstualne dokumente, primjenji...

Full description

Permalink: http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:48237/Details
Glavni autor: Bošnjak, Renato (-)
Ostali autori: Pripužić, Krešimir (Thesis advisor)
Vrsta građe: Drugo
Impresum: Zagreb, R. Bošnjak, 2017.
Predmet:
LEADER 02921na a2200229 4500
003 HR-ZaFER
008 160221s2017 ci ||||| m||| 00| 0 hr d
035 |a (HR-ZaFER)ferid5838 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
100 1 |a Bošnjak, Renato 
245 1 0 |a Usporedba metoda za klasifikaciju tekstualnih dokumenata :  |b završni rad /  |c Renato Bošnjak ; [mentor Krešimir Pripužić]. 
246 1 |a Comparison of Text Classification Methods  |i Naslov na engleskom:  
260 |a Zagreb,  |b R. Bošnjak,  |c 2017. 
300 |a 25 str. ;  |c 30 cm +  |e CD-ROM 
502 |b preddiplomski studij  |c Fakultet elektrotehnike i računarstva u Zagrebu  |g smjer: Telekomunikacije i informatika, šifra smjera: 42, datum predaje: 2017-06-09, datum završetka: 2017-07-10 
520 3 |a Sažetak na hrvatskom: Zbog postojanja vrlo velike količine tekstualnih dokumenata potrebno ih je, radi brže, jeftinije i lakše obrade, organizirati, odnosno podijeliti prema zajedničkim svojstvima na zadane klase. Takav postupak nazivamo klasifikacija koja je, osim na tekstualne dokumente, primjenjiva i na druge vrste podataka. S obzirom na svojstva podataka koje organiziramo, potrebno je odabrati onu metodu klasifikacije koja će najbolje odrediti pripadnost klasi. Odluka se temelji na teorijskim saznanjima o pojedinim metodama i usporedbi dobivenih rezultata. Moguće je da iste metode, primijenjene na različite skupove podataka, rezultiraju vrlo različitom točnosti određivanja klasa. U radu su opisana dva klasifikatora koji pripadaju različitim vrstama strojnog učenja. To su klasifikator najbližih susjeda i naivni Bayesov klasifikator. Za primjenu klasifikacije moguće je koristiti Apache Lucene, programsku knjižnicu otvorenog koda. 
520 3 |a Sažetak na engleskom: In order to efficiently process large number of textual documents it is necessary to organize them by assigning a class for each document. Because of that we use classification methods which can be applied to other types of data as well. Considering the properties of documents set, it is necessary to use a classification method which will result with the best classification result. The decision has to be made based on theoretical knowledge and regarding the given set of documents because the quality of the same method can vary regarding the properties of given set of documents. Two classification methods with different properties are described in this thesis. These are \textit{k}-Nearest Neighbor classification and Naive Bayes classifier. Apache Lucene, an open source information retrieval library, can be used for implementing text classification. 
653 1 |a klasifikacija teksta  |a klasifikator najbližih susjeda  |a naivni Bayesov klasifikator  |a Apache Lucene 
653 1 |a text classification  |a k-nearest neighbors classification  |a naive Bayes classifier  |a Apache Lucene 
700 1 |a Pripužić, Krešimir  |4 ths 
942 |c Z 
999 |c 48237  |d 48237