|
|
|
|
LEADER |
04359na a2200229 4500 |
003 |
HR-ZaFER |
008 |
160221s2019 ci ||||| m||| 00| 0 hr d |
035 |
|
|
|a (HR-ZaFER)ferid6468
|
040 |
|
|
|a HR-ZaFER
|b hrv
|c HR-ZaFER
|e ppiak
|
100 |
1 |
|
|a Puh, Maja
|9 40809
|
245 |
1 |
0 |
|a Primjena algoritama strojnog učenja nad tokom podataka u stvarnom vremenu :
|b diplomski rad /
|c Maja Puh ; [mentor Ljiljana Brkić].
|
246 |
1 |
|
|a Realtime Machine Learning over Streaming Data
|i Naslov na engleskom:
|
260 |
|
|
|a Zagreb,
|b M. Puh,
|c 2019.
|
300 |
|
|
|a 61 str. ;
|c 30 cm +
|e CD-ROM
|
502 |
|
|
|b diplomski studij
|c Fakultet elektrotehnike i računarstva u Zagrebu
|g smjer: Programsko inženjerstvo i informacijski sustavi, šifra smjera: 54, datum predaje: 2019-06-28, datum završetka: 2019-07-03
|
520 |
3 |
|
|a Sažetak na hrvatskom: Konstantan porast količine podataka koji proizlaze iz različitih područja korisničkog djelovanja u tehnološkoj domeni izazvao je potrebu za fokusiranim razvojem prikladnih analitika. Da bi iz velikih količina nestrukturiranih podataka nastalo znanje, potrebno ih je dubinski analizirati, što omogućuje posebna disciplina rastućeg područja strojnog učenja. Nadalje, procesuiranje podataka koji se kontinuirano generiraju mora se paralelizirati da bi obrada u stvarnom vremenu bila moguća, a to je ostvareno kroz distribuirane sustave za obradu podataka. U ovom radu opisani su konceptualni modeli distribuiranih programskih okvira za obradu tokova podataka te su prikazani konkretni sustavi dostupni u Hadoop ekosistemu: Apache Kafka, Apache Spark i Apache Flink. Implementiran je sustav koji povezuje navedene okvire s ciljem evaluiranja i uspoređivanja njihovih performansi, prilikom primjene algoritama strojnog učenja. Apache Kafka koristi se za perzistenciju podataka u jednoj i drugoj eksperimentalnoj inačici, dok je varijabilni dio sustava korištenje Spark, odnosno Flink programskog okvira. Korišteni su algoritmi unaprijed dostupni u programskim modulima odabranih sustava: SVM, linearna regresija i algoritam k-sredina. Odabrana metrika evaluacije proizlazi iz općenitih zahtjeva postavljenih pred distribuirane sustave, a temelji se na usporedbi skalabilnosti jednog i drugog okvira prilikom obrade konkretnog skupa podataka koji simulira tok podataka. Kroz sve provedene eksperimente Apache Spark daje bolje rezultate, što ne umanjuje prosperitetne mogućnosti Apache Flinka.
|
520 |
3 |
|
|a Sažetak na engleskom: Immense growth of avaliable data generated from various fields of user interaction within technological area of domain has made the need for structured development of suitable analytics crucial. To be able to provide knowledge from vast amount od unstructured data it is essential to use data mining, extended to the specialized fast-growing field of machine learning. Furthermore, processing of continuously generated data has to be parallelized to make real-time processing possible, which is achieved through distributed data processing engines. This thesis provides description of conceptual model of distribuited data streaming processing engines as well as representation of specific engines available through Hadoop ecosystem: Apache Kafka, Apache Spark and Apache Flink. System which interconnects all of the specified engines is implemented in order to carrry out evaluation and comparison of their performance, while applying machine learning algorithms. Apache Kafka is used for securing persistence of data in both versions of experimental setup, while the use of Spark and Flink excludes one another. Selection of applied machine learning algorithms depended on their availability within libraries of chosen engines, it consisted of SVM, linear regression and k-means. Evaluation metric is based upon usual demands concerning distributed systems; it compares scalability of selected engines while performing data processing on same dataset which simulates data stream. Apache Spark outperformed Apache Flink through all of the conducted experiments, which does not diminish future prosperity of Apache Flink.
|
653 |
|
1 |
|a stvarnovremenska obrada
|a tokovi podataka
|a sustav za obradu tokova podataka
|a strojno učenje
|
653 |
|
1 |
|a Real-time processing
|a data streaming
|a data streaming processing engine
|a Machine learning
|
700 |
1 |
|
|a Brkić, Ljiljana
|4 ths
|9 30847
|
942 |
|
|
|c Y
|
999 |
|
|
|c 51521
|d 51521
|