MARC: Paralelizacija algoritma indukcije stabala odluke za procesiranje Big Data primjenom Hadoop i MapReduce

Paralelizacija algoritma indukcije stabala odluke za procesiranje Big Data primjenom Hadoop i MapReduce

Sažetak na hrvatskom: Protekle godine svjedocile su vidljivom rastu big data i data mining tehnologija. Takoder, mnoge polemike vodile su se u vezi zaštite privatnosti u navedenoj domeni. Big data se ponajviše veže uz društvene mreže koje svakodnevno generiraju velike kolicine privatnih podataka mil...

Full description

Permalink:	http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:46170/Details
Glavni autor:	Ćelić, Iris Veronika (-)
Ostali autori:	Nettleton, David (Thesis advisor)
Vrsta građe:	Drugo
Impresum:	Zagreb, I. Ćelić, 2015.
Predmet:	paralelizacija, MapReduce, Hadoop, big data, data mining, stabla odluke, privatnost parallelization, MapReduce, Hadoop, big data, data mining, decision tree learning, privacy


LEADER	04701na a2200241 4500
003	HR-ZaFER
005	20160721092126.0
008	160221s2015 ci \|\|\|\|\| m\|\|\| 00\| 0 en d
035			\|a (HR-ZaFER)ferid2349
040			\|a HR-ZaFER \|b hrv \|c HR-ZaFER \|e ppiak
100	1		\|a Ćelić, Iris Veronika \|9 37658
245	1	0	\|a Paralelizacija algoritma indukcije stabala odluke za procesiranje Big Data primjenom Hadoop i MapReduce : \|b diplomski rad / \|c Iris Veronika Ćelić ; [mentor David Nettleton].
246	1		\|a Parallelization of a tree induction algorithm for big data processing with Hadoop and MapReduce \|i Naslov na engleskom:
260			\|a Zagreb, \|b I. Ćelić, \|c 2015.
300			\|a 67 str. ; \|c 30 cm + \|e UZ RAD NIJE PRILOŽEN CD-ROM
502			\|b diplomski studij \|c Fakultet elektrotehnike i računarstva u Zagrebu \|g smjer: Programsko inženjerstvo i informacijski sustavi, šifra smjera: 54, datum predaje: 2015-06-29, datum završetka: 2015-06-30
520	3		\|a Sažetak na hrvatskom: Protekle godine svjedocile su vidljivom rastu big data i data mining tehnologija. Takoder, mnoge polemike vodile su se u vezi zaštite privatnosti u navedenoj domeni. Big data se ponajviše veže uz društvene mreže koje svakodnevno generiraju velike kolicine privatnih podataka milijuna korisnika. Analiza spomenutih podataka donosi iznimnu korist za pružatelje usluga te same korisnike, npr. poboljšanje kvalitete usluge. Sukladno tome, korisnici mogu profitirati dijeljenjem privatnih podataka, no s druge strane, takoder, dio tih podataka potrebno je zaštiti. Glavni cilj ovog diplomskog rada jest paralelizacija algoritma razvijenog za pružanje izvještaja korisnicima društvenih mreža o potencijalnim kršenjima privatnosti. Algoritam se temelji na poznatoj data mining tehnici - stablima odluke. Na temelju relevantnosti atributa, algoritam informira korisnika o informacijama koje mogu biti razotkrivene od trece strane. S obzirom na cinjenicu da algoritam generira model za svakog korisnika te šumu pravila za svaki atribut, uocen je problem performansi programa. Osnovni zadatak jest optimizacija navedenog algoritma kako bi se omogucilo procesiranje velikih kolicina podataka odnosno big data. Rješenje ovog problema pronašli smo u paralelizaciji cjelokupnog algoritma. Uocena su razlicita uska grla unutar programa koji se slijedno izvršava te su te komponente zasebno promatrane kao kanidati za paralelizaciju. Paralelizacija je ostvarena korištenjem alata Apache Hadoop te odgovarajuce MapReduce paradigme namjenjene big data obradi. Optimizacija algoritma potkrijepljena je razlicitim mjerenjima na grozdu racunala te testovima validacije.
520	3		\|a Sažetak na engleskom: Recent years have witnessed a phenomenal growth of big data and data mining techniques but also fueled a lot of debate about related privacy issues. One of the main producers of big data nowadays are on-line social networks which collect private data of millions of users every day. Analyzing this data can provide numerous benefits for the providers and the users, e.g. improving the quality of service. Therefore, users could benefit from sharing some of their personal information, but on the other hand, they would surely like to keep some of the personal information private. The main goal of this thesis is a parallelization of the algorithm developed to provide users with a meaningful report regarding potential privacy risks on social networks. The algorithm is based on decision tree learning, a well-known data mining technique. This tool will inform the user which concealed information can be subject to disclosure by identifying attribute relevance. Considering the fact that the algorithm builds a predictive model for each user and the forest of rules for each attribute we addressed the problem of the computational cost. The aim of this thesis is optimizing the algorithm and making the algorithm feasible for big data processing. As a solution to the addressed problems we proposed a parallel versions of the initial algorithm. Different bottlenecks are detected in the original sequential algorithm and were considered as candidates for the parallelization. The parallelism is obtained using Apache Hadoop, the open source MapReduce implementation for processing large data sets. Finally, various tests are run with different data sizes that can prove the reduction of computational complexity in a distributed environment.
653		1	\|a paralelizacija, MapReduce, Hadoop, big data, data mining, stabla odluke, privatnost
653		1	\|a parallelization, MapReduce, Hadoop, big data, data mining, decision tree learning, privacy
700	1		\|a Nettleton, David \|4 ths \|9 37659
942			\|c Y \|2 udc
999			\|c 46170 \|d 46170

Paralelizacija algoritma indukcije stabala odluke za procesiranje Big Data primjenom Hadoop i MapReduce

Slični primjerci