Personalizirano filtriranje toka s društvene mreže Twitter

Sažetak na hrvatskom: Lucene je jedan od najpoznatijih alata za pretraživanje teksta. Tijekom svog rada koristi dva teorijska modela pretraživanja: čisti Boolean model (engl. Pure Boolean model) i model vektorskog prostora (engl. Vector space model). Rad Lucenea se može podijeliti u dva osnovna di...

Full description

Permalink: http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:50453/Details
Glavni autor: Vidović, Lovro (-)
Ostali autori: Pripužić, Krešimir (Thesis advisor)
Vrsta građe: Drugo
Impresum: Zagreb, L. Vidović, 2016.
Predmet:
LEADER 03922na a2200229 4500
003 HR-ZaFER
008 160221s2016 ci ||||| m||| 00| 0 hr d
035 |a (HR-ZaFER)ferid4076 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
100 1 |a Vidović, Lovro 
245 1 0 |a Personalizirano filtriranje toka s društvene mreže Twitter :  |b završni rad /  |c Lovro Vidović ; [mentor Krešimir Pripužić]. 
246 1 |a Personalized Filtering of the Twitter Stream  |i Naslov na engleskom:  
260 |a Zagreb,  |b L. Vidović,  |c 2016. 
300 |a 46 str. ;  |c 30 cm +  |e CD-ROM 
502 |b preddiplomski studij  |c Fakultet elektrotehnike i računarstva u Zagrebu  |g smjer: Računalno inženjerstvo, šifra smjera: 40, datum predaje: 2016-06-17, datum završetka: 2016-07-11 
520 3 |a Sažetak na hrvatskom: Lucene je jedan od najpoznatijih alata za pretraživanje teksta. Tijekom svog rada koristi dva teorijska modela pretraživanja: čisti Boolean model (engl. Pure Boolean model) i model vektorskog prostora (engl. Vector space model). Rad Lucenea se može podijeliti u dva osnovna dijela: indeksiranje teksta i pretraživanje koristeći stvorene indekse. Indeks je posebna struktura podataka koja omogućuje brzo pretraživanje tekstualnog sadržaja dokumenata. Prije samog procesa indeksiranja potrebno je obaviti analizu tekstualnog sadržaja dokumenta. Proces analize je postupak razdvajanja teksta na posebne jedinice, tokene. Svaki token predstavlja pojedinačnu riječ teksta. Uz tekst riječi koju predstavlja, token još sadrži i početak i kraj pozicije riječi u dokumentu (engl. offsets) te poziciju riječi u dokumentu. Prilikom pretraživanja računa se koeficijent sličnosti između upita kojeg čine unesene ključne riječi i tekstualnog sadržaja dokumenata. Kao rezultat procesa pretraživanja dobivaju se oni dokumenti koji su najsličniji ključnim riječima upita. Razvijena aplikacija omogućava personalizirano filtriranje toka s društvene mreže Twitter, određivanje onih javnih poruka koje su najsličnije korisnikovom unosu koristeći Javinu programsku knjižnicu Apache Lucene te isporuku filtriranih javnih poruka u korisnikov sandučić elektroničke pošte. Program se poziva periodički.  
520 3 |a Sažetak na engleskom: Lucene is one of the most famous tools for text searching. During its work, Lucene uses two theoretical models of searching: Pure Boolean model and Vector space model. Lucene's work can be divided into two primary parts: text indexing and searching text using created indexes. Index is a special data structure which enables fast search of document's textual content. Before indexing process starts, document's textual content must go through analysis process. Analysis process is a special procedure of dividing text to special units i.e. tokens. Every token represents one single text's word. Along with a word it represents, every token contains char number where word starts and char number where the word ends in document (offset).It also contains position of the word in a document. During the searching process, similarity coefficient of query and document on which the search process is applied is calculated. Documents which are the most similar to the key words of the query are given as the search result. Developed application enables personalized stream filtering from social network Twitter, determination of tweets which have the biggest similarity to the user's key words using search engine library Apache Lucene and delivering e-mail (electronic mail) to the user. Program is running periodically.  
653 1 |a Lucene  |a Twitter  |a tweet  |a token  |a indeksiranje  |a pretraživanje teksta  |a Luke  |a aplikacija za pretraživanje  |a koeficijent sličnosti  |a Java 
653 1 |a Lucene  |a Twitter  |a tweet  |a token  |a indexing  |a text searching  |a Luke  |a search application  |a similarity coefficient  |a Java 
700 1 |a Pripužić, Krešimir  |4 ths 
942 |c Z 
999 |c 50453  |d 50453