|
|
|
|
LEADER |
03565na a2200229 4500 |
003 |
HR-ZaFER |
008 |
160221s2019 ci ||||| m||| 00| 0 hr d |
035 |
|
|
|a (HR-ZaFER)ferid7171
|
040 |
|
|
|a HR-ZaFER
|b hrv
|c HR-ZaFER
|e ppiak
|
100 |
1 |
|
|a Mance, Ivana
|9 40401
|
245 |
1 |
0 |
|a Implementacija statističkog hijerarhijskog algoritma za grupiranje podataka dobivenih iz tokova podataka :
|b završni rad /
|c Ivana Mance ; [mentor Boris Vrdoljak].
|
246 |
1 |
|
|a Statistical Hierarchical Algorithm Implementation for Data Streams Clustering
|i Naslov na engleskom:
|
260 |
|
|
|a Zagreb,
|b I. Mance,
|c 2019.
|
300 |
|
|
|a 37 str. ;
|c 30 cm +
|e CD-ROM
|
502 |
|
|
|b preddiplomski studij
|c Fakultet elektrotehnike i računarstva u Zagrebu
|g smjer: Računarska znanost, šifra smjera: 41, datum predaje: 2019-06-14, datum završetka: 2019-07-12
|
520 |
3 |
|
|a Sažetak na hrvatskom: Živimo u eri podataka u kojoj je brza i efektivna obrada velike količine podataka nužna za inovativnost i razvoj. Nije više moguće ručno obrađivati gomile podataka koje kruže raznim računalnim sustavima, zbog čega se poseže za automatiziranom obradom i strojnim učenjem. Algoritmi grupiranja su nenadzirani oblik strojnog učenja gdje algoritam pokušava raspodijeliti podatke u grupe bez ikakvih oznaka. Algoritam statističkog hijerarhijskog grupiranja spada u obitelj hijerarhijskih aglomerativnih algoritama. Pripadnost podata grupi određuje računajući mahalanobisovu udaljenost koja uzima u obzir ovisnosti između dimenzija podataka. Manje grupe nazvane komponente grupiraju se u veće grupe nazvane klasteri. Implementacija algoritma izvedena je s Apache Sparkom, analitičkim strojem za distribuiranu obradu velikih skupova podataka. Spark za pohranu distribuiranih podataka koristi strukturu RDD, a obrada podataka svodi se na transformacije i akcije nad RDD-ima. U implementaciji algoritma, RDD čine serijalizirani Javini objekti koji predstavljaju komponente klastera. Algoritam je uspješniji na podacima s izraženijom ovisnošću među dimenzijama podataka.
|
520 |
3 |
|
|a Sažetak na engleskom: We live in era of data, where fast and efficient big data processing is necessity for innovation and growth. Manual processing of data running through computer systems is simply not possible and for that reason, automation in processing and machine learning are relied on more heavily. Clustering algorithms are unsupervised form of machine learning were algorithm tries to group data in clusters without any labels. Statistical hierarchical algorithm belongs in agglomerative hierarchical algorithms. A metric used for determining affiliation of data to a certain cluster is mahalanobis distance, measure of distance that takes data covariance into the account. Smaller groups named components are agglomerated in bigger groups, called clusters. The algorithm was implemented using Apache Spark, analytical engine for distributed big data processing. Spark uses distributed data structure called RDD and most of data processing consists of preforming transformations and actions on RDDs. In the implementation, RDD consists of serialized Java objects representing cluster components. Algorithm preforms better on datasets that have pronounced correlation between dimensions of data.
|
653 |
|
1 |
|a strojno učenje
|a algoritam grupiranja
|a mahalanobisova udaljenost
|a Apache Spark
|a RDD
|a distribuirana obrada
|
653 |
|
1 |
|a machine learning
|a clustering
|a mahalanobis distance
|a Apache Spark
|a RDD
|a distributed processing
|
700 |
1 |
|
|a Vrdoljak, Boris
|4 ths
|9 18055
|
942 |
|
|
|c Z
|
999 |
|
|
|c 51128
|d 51128
|