MARC: Personalizirano filtriranje toka s društvene mreže Twitter

Personalizirano filtriranje toka s društvene mreže Twitter

Sažetak na hrvatskom: Lucene je jedan od najpoznatijih alata za pretraživanje teksta. Tijekom svog rada koristi dva teorijska modela pretraživanja: čisti Boolean model (engl. Pure Boolean model) i model vektorskog prostora (engl. Vector space model). Rad Lucenea se može podijeliti u dva osnovna di...

Full description

Permalink:	http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:50453/Details
Glavni autor:	Vidović, Lovro (-)
Ostali autori:	Pripužić, Krešimir (Thesis advisor)
Vrsta građe:	Drugo
Impresum:	Zagreb, L. Vidović, 2016.
Predmet:	Lucene > Twitter > tweet > token > indeksiranje > pretraživanje teksta > Luke > aplikacija za pretraživanje > koeficijent sličnosti > Java Lucene > Twitter > tweet > token > indexing > text searching > Luke > search application > similarity coefficient > Java


LEADER	03922na a2200229 4500
003	HR-ZaFER
008	160221s2016 ci \|\|\|\|\| m\|\|\| 00\| 0 hr d
035			\|a (HR-ZaFER)ferid4076
040			\|a HR-ZaFER \|b hrv \|c HR-ZaFER \|e ppiak
100	1		\|a Vidović, Lovro
245	1	0	\|a Personalizirano filtriranje toka s društvene mreže Twitter : \|b završni rad / \|c Lovro Vidović ; [mentor Krešimir Pripužić].
246	1		\|a Personalized Filtering of the Twitter Stream \|i Naslov na engleskom:
260			\|a Zagreb, \|b L. Vidović, \|c 2016.
300			\|a 46 str. ; \|c 30 cm + \|e CD-ROM
502			\|b preddiplomski studij \|c Fakultet elektrotehnike i računarstva u Zagrebu \|g smjer: Računalno inženjerstvo, šifra smjera: 40, datum predaje: 2016-06-17, datum završetka: 2016-07-11
520	3		\|a Sažetak na hrvatskom: Lucene je jedan od najpoznatijih alata za pretraživanje teksta. Tijekom svog rada koristi dva teorijska modela pretraživanja: čisti Boolean model (engl. Pure Boolean model) i model vektorskog prostora (engl. Vector space model). Rad Lucenea se može podijeliti u dva osnovna dijela: indeksiranje teksta i pretraživanje koristeći stvorene indekse. Indeks je posebna struktura podataka koja omogućuje brzo pretraživanje tekstualnog sadržaja dokumenata. Prije samog procesa indeksiranja potrebno je obaviti analizu tekstualnog sadržaja dokumenta. Proces analize je postupak razdvajanja teksta na posebne jedinice, tokene. Svaki token predstavlja pojedinačnu riječ teksta. Uz tekst riječi koju predstavlja, token još sadrži i početak i kraj pozicije riječi u dokumentu (engl. offsets) te poziciju riječi u dokumentu. Prilikom pretraživanja računa se koeficijent sličnosti između upita kojeg čine unesene ključne riječi i tekstualnog sadržaja dokumenata. Kao rezultat procesa pretraživanja dobivaju se oni dokumenti koji su najsličniji ključnim riječima upita. Razvijena aplikacija omogućava personalizirano filtriranje toka s društvene mreže Twitter, određivanje onih javnih poruka koje su najsličnije korisnikovom unosu koristeći Javinu programsku knjižnicu Apache Lucene te isporuku filtriranih javnih poruka u korisnikov sandučić elektroničke pošte. Program se poziva periodički.
520	3		\|a Sažetak na engleskom: Lucene is one of the most famous tools for text searching. During its work, Lucene uses two theoretical models of searching: Pure Boolean model and Vector space model. Lucene's work can be divided into two primary parts: text indexing and searching text using created indexes. Index is a special data structure which enables fast search of document's textual content. Before indexing process starts, document's textual content must go through analysis process. Analysis process is a special procedure of dividing text to special units i.e. tokens. Every token represents one single text's word. Along with a word it represents, every token contains char number where word starts and char number where the word ends in document (offset).It also contains position of the word in a document. During the searching process, similarity coefficient of query and document on which the search process is applied is calculated. Documents which are the most similar to the key words of the query are given as the search result. Developed application enables personalized stream filtering from social network Twitter, determination of tweets which have the biggest similarity to the user's key words using search engine library Apache Lucene and delivering e-mail (electronic mail) to the user. Program is running periodically.
653		1	\|a Lucene \|a Twitter \|a tweet \|a token \|a indeksiranje \|a pretraživanje teksta \|a Luke \|a aplikacija za pretraživanje \|a koeficijent sličnosti \|a Java
653		1	\|a Lucene \|a Twitter \|a tweet \|a token \|a indexing \|a text searching \|a Luke \|a search application \|a similarity coefficient \|a Java
700	1		\|a Pripužić, Krešimir \|4 ths
942			\|c Z
999			\|c 50453 \|d 50453

Personalizirano filtriranje toka s društvene mreže Twitter

Slični primjerci