Usporedba metoda za grupiranje tekstualnih dokumenata

Sažetak na hrvatskom: Obrada i analiza dokumenata iz velikih kolekcija zahtijeva određenu organizaciju istih. Tomu služi grupiranje, postupak kojim će računalo, s obzirom na zadane parametre, odrediti grupu za dokumente iz kolekcije. Parametri se zadaju s obzirom na kolekciju i želje korisnika. Algo...

Full description

Permalink: http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:48233/Details
Glavni autor: Bošnjak, Dario (-)
Ostali autori: Pripužić, Krešimir (Thesis advisor)
Vrsta građe: Drugo
Impresum: Zagreb, D. Bošnjak, 2017.
Predmet:
LEADER 03384na a2200229 4500
003 HR-ZaFER
008 160221s2017 ci ||||| m||| 00| 0 hr d
035 |a (HR-ZaFER)ferid6001 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
100 1 |a Bošnjak, Dario 
245 1 0 |a Usporedba metoda za grupiranje tekstualnih dokumenata :  |b završni rad /  |c Dario Bošnjak ; [mentor Krešimir Pripužić]. 
246 1 |a Comparison of Text Clustering Methods  |i Naslov na engleskom:  
260 |a Zagreb,  |b D. Bošnjak,  |c 2017. 
300 |a 28 str. ;  |c 30 cm +  |e CD-ROM 
502 |b preddiplomski studij  |c Fakultet elektrotehnike i računarstva u Zagrebu  |g smjer: Telekomunikacije i informatika, šifra smjera: 42, datum predaje: 2017-06-09, datum završetka: 2017-07-10 
520 3 |a Sažetak na hrvatskom: Obrada i analiza dokumenata iz velikih kolekcija zahtijeva određenu organizaciju istih. Tomu služi grupiranje, postupak kojim će računalo, s obzirom na zadane parametre, odrediti grupu za dokumente iz kolekcije. Parametri se zadaju s obzirom na kolekciju i želje korisnika. Algoritam k-means jadan je od najpoznatijih algoritama, dok je poboljšanje dano algoritmom k-means++. Fuzzy k-means je meki algoritam grupiranja koji ovisno o zadanom parametru s određenim postotkom pripadnosti može svrstati dokumente u jednu ili više grupa. Algoritam multiple k-means++ svodi se na izvođenje algoritma k-means++ određeni broj puta. Navedeni algoritmi svrstavaju dokumente u zadani broj grupa, dok algoritam DBSCAN kao parametar ne prima željeni broj grupa, nego najmanji broj točaka u grupi i okolinu ɛ. Ako točka sadrži barem traženi broj točaka u svojoj okolini tada može postati jezgrom grupe, a u suprotnom će biti svrstana u neku grupu ili biti označena kao šum. Algoritam DBSCAN prilagodljiviji je od ostalih algoritama, ali je teško odrediti parametre s kojima bi se dobili dobri rezultati jer jako ovise o kolekciji. 
520 3 |a Sažetak na engleskom: Analysis of large collections can be a difficult task that can be simplified by dividing the collection into groups. Each group contains documents that are somehow similar. The process of dividing the collection can be done manually by a human, or automatically by a machine. Clustering is an automated process of dividing the collection into groups (clusters), with respect to parameters set by the user. K-means is a well known clustering algorithm, an improved version also exists, called k-means++. Both algorithms cluster a data point into one cluster. A fuzzy k-means algorithm is different, because it can cluster one data point into several clusters, depending on the user requirements. The DBSCAN algorithm, unlike aforementioned algorithms, does not require a fixed number of groups, but a minimum number of points in the group and ɛ neighborhood size. If a data point contains the minimum number of data points needed in it's neighborhood it can then become a cluster core, otherwise it will be grouped later in the process or labeled as noise. Both parameters are hard to set properly, because they severely depend on the collection. 
653 1 |a prikupljanje informacija  |a indeks  |a grupiranje  |a strojno učenje  |a Apache Lucene  |a Apache Mahout 
653 1 |a information retrieval  |a index  |a cluster  |a machine learning  |a Apache Lucene  |a Apache Mahout 
700 1 |a Pripužić, Krešimir  |4 ths 
942 |c Z 
999 |c 48233  |d 48233