MARC: Klasifikacija podataka korištenjem radnog okvira Apache Spark

Klasifikacija podataka korištenjem radnog okvira Apache Spark

Sažetak na hrvatskom: U ovom radu dan je pregledan prikaz najpoznatijih implementiranih klasifikacijskih algoritama koje obuhvaća programska knjižica MLlib programskog okvira Apache Spark. Zbog Spark-ovog nedostatka vizualizacije obrade i analize značajki podataka, korištena je programska knjižica P...

Full description

Permalink:	http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:51152/Details
Glavni autor:	Mihaljević, Patrik (-)
Ostali autori:	Pripužić, Krešimir (Thesis advisor)
Vrsta građe:	Drugo
Impresum:	Zagreb, P. Mihaljević, 2019.
Predmet:	klasifikacijski algoritmi > raspodijeljeni sustav > Apache Spark > MLlib > strojno učenje, logistička regresija > SVM > slučajne šume > naivni Bayesov klasifikator classification algorithms > distributed system > Apache Spark > MLlib > machine learning > logistic regression > SVM > random forrest > naive Bayes


LEADER	02839na a2200229 4500
003	HR-ZaFER
008	160221s2019 ci \|\|\|\|\| m\|\|\| 00\| 0 hr d
035			\|a (HR-ZaFER)ferid6743
040			\|a HR-ZaFER \|b hrv \|c HR-ZaFER \|e ppiak
100	1		\|a Mihaljević, Patrik \|9 40427
245	1	0	\|a Klasifikacija podataka korištenjem radnog okvira Apache Spark : \|b diplomski rad / \|c Patrik Mihaljević ; [mentor Krešimir Pripužić].
246	1		\|a Data Classification with Apache Spark Framework \|i Naslov na engleskom:
260			\|a Zagreb, \|b P. Mihaljević, \|c 2019.
300			\|a 43 str. ; \|c 30 cm + \|e CD-ROM
502			\|b diplomski studij \|c Fakultet elektrotehnike i računarstva u Zagrebu \|g smjer: Računarska znanost, šifra smjera: 56, datum predaje: 2019-06-28, datum završetka: 2019-07-12
520	3		\|a Sažetak na hrvatskom: U ovom radu dan je pregledan prikaz najpoznatijih implementiranih klasifikacijskih algoritama koje obuhvaća programska knjižica MLlib programskog okvira Apache Spark. Zbog Spark-ovog nedostatka vizualizacije obrade i analize značajki podataka, korištena je programska knjižica Pandas u programskom jeziku Python. Pri konstrukciji skupa značajki koje će biti korištene za treniranje modela, izrađen je i sam konstrukcijski proces također u programskom jeziku Python. Treniranje modela, evaluacija te optimalan odabir klasifikacijskog modela ostvareni su u programskom jeziku Scala, uz korištenje programskog okvira Apache Spark koji omogućava raspodijeljeno izvođenje. Evaluacija i odabir optimalnog klasifikacijskog modela su provedeni na fakultetskom računalnom grozdu na stvarnim podacima proučavanog slučaja.
520	3		\|a Sažetak na engleskom: This paper gives an overview of the most popular implementations of classification algorithms provided in Apahce Spark's MLlib library. Due to Spark's lack of capability to visualize processed and analyzed data, the Pandas library was used in Python for that purpose. For constructing a set of features which will be used for fitting a model, the construction process itself was also developed and implemented in Python programming language. Model fitting, evaluation and optimal selection of the classification model are realized in the Scala programming language using Apache Spark Framework which allows distributed performance. The evaluation and the selection of the optimal classification model were executed on a faculty cluster on the real life dataset.
653		1	\|a klasifikacijski algoritmi \|a raspodijeljeni sustav \|a Apache Spark \|a MLlib \|a strojno učenje, logistička regresija \|a SVM \|a slučajne šume \|a naivni Bayesov klasifikator
653		1	\|a classification algorithms \|a distributed system \|a Apache Spark \|a MLlib \|a machine learning \|a logistic regression \|a SVM \|a random forrest \|a naive Bayes
700	1		\|a Pripužić, Krešimir \|4 ths \|9 32607
942			\|c Y
999			\|c 51152 \|d 51152

Klasifikacija podataka korištenjem radnog okvira Apache Spark

Slični primjerci