Analiza i vizualizacija velikih podataka u Apache Spark okruženju

Sažetak na hrvatskom: Područje analize podataka suočava se s eksponencijalnim rastom količine podataka koje je teško obrađivati koristeći tradicionalne metode i alate. Apache Spark omogućava skalabilnu i brzu raspodijeljenu obradu velikih podatka u grozdovima računala. Spark uz pomoć memorijskih aps...

Full description

Permalink: http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:46301/Details
Glavni autor: Kovačev, Josipa (-)
Ostali autori: Baranović, Mirta (Thesis advisor)
Vrsta građe: Drugo
Impresum: Zagreb, J. Kovačev, 2015.
Predmet:
LEADER 03135na a2200241 4500
003 HR-ZaFER
005 20160711111243.0
008 160221s2015 ci ||||| m||| 00| 0 hr d
035 |a (HR-ZaFER)ferid2473 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
100 1 |a Kovačev, Josipa  |9 37375 
245 1 0 |a Analiza i vizualizacija velikih podataka u Apache Spark okruženju :  |b diplomski rad /  |c Josipa Kovačev ; [mentor Mirta Baranović]. 
246 1 |a Big data analysis and visualisation in Apache Spark framework  |i Naslov na engleskom:  
260 |a Zagreb,  |b J. Kovačev,  |c 2015. 
300 |a 71 str. ;  |c 30 cm +  |e CD-ROM 
502 |b diplomski studij  |c Fakultet elektrotehnike i računarstva u Zagrebu  |g smjer: Programsko inženjerstvo i informacijski sustavi, šifra smjera: 54, datum predaje: 2015-06-30, datum završetka: 2015-07-08 
520 3 |a Sažetak na hrvatskom: Područje analize podataka suočava se s eksponencijalnim rastom količine podataka koje je teško obrađivati koristeći tradicionalne metode i alate. Apache Spark omogućava skalabilnu i brzu raspodijeljenu obradu velikih podatka u grozdovima računala. Spark uz pomoć memorijskih apstrakcija drži podatke u radnoj memoriju tijekom cijelog rada što mu omogućava izbjegavanje ulazno-izlaznih uskih grla pri zapisavanju i čitanju s diska čime postiže veće brzine od sličnih platformi. Dozvoljene su samo krupno-zrnate transformacije čime je efikasno osigurana otpornost na greške kroz logiranje transformacija bez replikacije podataka. Spark sadrži i posebne module koje je moguće kombinirati: Spark SQL za rad sa strukturiranim podacima, MLlib za strojno učenje, GraphX za operacije s grafovima i Spark Streaming za tokove podataka.  
520 3 |a Sažetak na engleskom: Modern data analysis is faced with the exponential growth of data volumes difficult to process using traditional methods and tools. Apache Spark provides scalable and fast distributed processing of Big Data in a cluster. Spark uses memory abstraction called Resilient Distributed Datasets to perform all computations in memory which allows him to avoid disk I/O bottlenecks, thus achieving a greater speed than other similar platforms. RDDs provide an interface based on coarse-grained transformations enabling them to efficiently provide fault tolerance by logging the transformations rather than replicating the actual data across the nodes. Spark contains special modules that can be combined: Spark SQL for working with structured data, MLlib for machine learning, GraphX for graph operations and Spark Streaming for data streams analysis.  
653 1 |a Big Data  |a analiza podataka  |a veliki podaci  |a znanost o podacima  |a Apache Spark  |a RDD  |a Spark SQL  |a MLlib  |a GraphX  |a Spark Streaming  |a DataFrame  |a DStreams  |a grupiranje  |a algoritam k-srednjih vrijednosti  |a Google Charts  |a vizualizacija velikih podataka 
653 1 |a Big Data  |a data analysis  |a Data Science  |a Apache Spark  |a RDD  |a Spark SQL  |a MLlib  |a GraphX  |a Spark Streaming  |a DataFrame  |a DStreams  |a clustering  |a k-means algorithm  |a Google Charts  |a Big Data visualisation 
700 1 |a Baranović, Mirta  |4 ths  |9 4004 
942 |c Y  |2 udc 
999 |c 46301  |d 46301