MARC: Implementacija statističkog hijerarhijskog algoritma za grupiranje podataka dobivenih iz tokova podataka

Implementacija statističkog hijerarhijskog algoritma za grupiranje podataka dobivenih iz tokova podataka

Sažetak na hrvatskom: Živimo u eri podataka u kojoj je brza i efektivna obrada velike količine podataka nužna za inovativnost i razvoj. Nije više moguće ručno obrađivati gomile podataka koje kruže raznim računalnim sustavima, zbog čega se poseže za automatiziranom obradom i strojnim učenjem. Algorit...

Full description

Permalink:	http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:51128/Details
Glavni autor:	Mance, Ivana (-)
Ostali autori:	Vrdoljak, Boris (Thesis advisor)
Vrsta građe:	Drugo
Impresum:	Zagreb, I. Mance, 2019.
Predmet:	strojno učenje > algoritam grupiranja > mahalanobisova udaljenost > Apache Spark > RDD > distribuirana obrada machine learning > clustering > mahalanobis distance > Apache Spark > RDD > distributed processing


LEADER	03565na a2200229 4500
003	HR-ZaFER
008	160221s2019 ci \|\|\|\|\| m\|\|\| 00\| 0 hr d
035			\|a (HR-ZaFER)ferid7171
040			\|a HR-ZaFER \|b hrv \|c HR-ZaFER \|e ppiak
100	1		\|a Mance, Ivana \|9 40401
245	1	0	\|a Implementacija statističkog hijerarhijskog algoritma za grupiranje podataka dobivenih iz tokova podataka : \|b završni rad / \|c Ivana Mance ; [mentor Boris Vrdoljak].
246	1		\|a Statistical Hierarchical Algorithm Implementation for Data Streams Clustering \|i Naslov na engleskom:
260			\|a Zagreb, \|b I. Mance, \|c 2019.
300			\|a 37 str. ; \|c 30 cm + \|e CD-ROM
502			\|b preddiplomski studij \|c Fakultet elektrotehnike i računarstva u Zagrebu \|g smjer: Računarska znanost, šifra smjera: 41, datum predaje: 2019-06-14, datum završetka: 2019-07-12
520	3		\|a Sažetak na hrvatskom: Živimo u eri podataka u kojoj je brza i efektivna obrada velike količine podataka nužna za inovativnost i razvoj. Nije više moguće ručno obrađivati gomile podataka koje kruže raznim računalnim sustavima, zbog čega se poseže za automatiziranom obradom i strojnim učenjem. Algoritmi grupiranja su nenadzirani oblik strojnog učenja gdje algoritam pokušava raspodijeliti podatke u grupe bez ikakvih oznaka. Algoritam statističkog hijerarhijskog grupiranja spada u obitelj hijerarhijskih aglomerativnih algoritama. Pripadnost podata grupi određuje računajući mahalanobisovu udaljenost koja uzima u obzir ovisnosti između dimenzija podataka. Manje grupe nazvane komponente grupiraju se u veće grupe nazvane klasteri. Implementacija algoritma izvedena je s Apache Sparkom, analitičkim strojem za distribuiranu obradu velikih skupova podataka. Spark za pohranu distribuiranih podataka koristi strukturu RDD, a obrada podataka svodi se na transformacije i akcije nad RDD-ima. U implementaciji algoritma, RDD čine serijalizirani Javini objekti koji predstavljaju komponente klastera. Algoritam je uspješniji na podacima s izraženijom ovisnošću među dimenzijama podataka.
520	3		\|a Sažetak na engleskom: We live in era of data, where fast and efficient big data processing is necessity for innovation and growth. Manual processing of data running through computer systems is simply not possible and for that reason, automation in processing and machine learning are relied on more heavily. Clustering algorithms are unsupervised form of machine learning were algorithm tries to group data in clusters without any labels. Statistical hierarchical algorithm belongs in agglomerative hierarchical algorithms. A metric used for determining affiliation of data to a certain cluster is mahalanobis distance, measure of distance that takes data covariance into the account. Smaller groups named components are agglomerated in bigger groups, called clusters. The algorithm was implemented using Apache Spark, analytical engine for distributed big data processing. Spark uses distributed data structure called RDD and most of data processing consists of preforming transformations and actions on RDDs. In the implementation, RDD consists of serialized Java objects representing cluster components. Algorithm preforms better on datasets that have pronounced correlation between dimensions of data.
653		1	\|a strojno učenje \|a algoritam grupiranja \|a mahalanobisova udaljenost \|a Apache Spark \|a RDD \|a distribuirana obrada
653		1	\|a machine learning \|a clustering \|a mahalanobis distance \|a Apache Spark \|a RDD \|a distributed processing
700	1		\|a Vrdoljak, Boris \|4 ths \|9 18055
942			\|c Z
999			\|c 51128 \|d 51128

Implementacija statističkog hijerarhijskog algoritma za grupiranje podataka dobivenih iz tokova podataka

Slični primjerci