|
|
|
|
LEADER |
04136nam a2200229uu 4500 |
005 |
20190227092951.0 |
008 |
s2006 ci a |||||||||| ||hrv|d |
035 |
|
|
|a HR-ZaFER 34417
|
040 |
|
|
|a HR-ZaFER
|b hrv
|c HR-ZaFER
|e ppiak
|
041 |
|
|
|a hrv
|
080 |
|
|
|a 004.91:025.4
|j obrada teksta U ODNOSU NA indeksaciju
|9 2864
|
100 |
1 |
|
|9 31199
|a Dobša, Jasminka
|
245 |
|
|
|a Dubinska analiza teksta uporabom konceptnog indeksiranja :
|b doktorska disertacija /
|c Jasminka Dobša ; [mentor Bojana Dalbelo Bašić]
|
260 |
|
|
|a Zagreb :
|b J. Dobša ; Fakultet elektrotehnike i računarstva,
|c 2006.
|
300 |
|
|
|a 203 str. :
|b graf. prikazi ;
|c 30 cm +
|e CD
|
504 |
|
|
|a Bibliografija str. 186-196.
|
520 |
|
|
|a Pretraživanje informacija i klasifikacija teksta dvije su discipline unutar dubinske
analize teksta koje se bave sadržajno utemeljenom obradom
nestrukturiranih tekstualnih dokumenata. Cilj je sustava za pretraživanje informacija
vratiti, kao rezultat pretraživanja na postavljen korisnièki upit, sve dokumente zbirke
koji su relevantni za dani upit i pri tome vratiti èim manje dokumenata koji nisu
relevantni za korisnièki upit. Klasifikacija teksta je postupak dodjeljivanja oznaka
prethodno definiranih klasa tekstualnim dokumentima.
Ovaj se rad bavi tehnikama snižavanja dimenzije u modelu vektorskog prostora za
predstavljanje tekstualnih dokumenata.
Tema rada je tehnika konceptnog indeksiranja koju se usporeðuje s tehnikom latentnog
semantièkog indeksiranja u izvršenju zadataka pretraživanja informacija i klasifikacije
teksta. Tehnike se usporeðuju meðusobno i sa standardnom tehnikom predstavljanja dokumenata
u modelu vektorskog prostora u parametrima uèinkovitosti pretraživanja informacija, odnosno
klasifikacije teksta, te u velièini memorijskog prostora potrebnog za predstavljanje
dokumenata. Takoðer se usporeðuju po složenosti klasifikatora induciranih metodom potpornih
vektora.
Poseban problem predstavlja dodavanje novih dokumenata u prostoru snižene dimenzije.
U radu su predstavljene i testirane dvije nove metode aproksimativnog dodavanja novih
dokumenata u prostoru snižene dimenzije koji je dobiven metodom konceptnog indeksiranja.
Ključne riječi:
dubinska analiza teksta, pretraživanje informacija, klasifikacija teksta,
model vektorskog prostora, snižavanje dimenzije prostora, latentno semantièko indeksiranje,
konceptno indeksiranje, metoda potpornih vektora
|
520 |
|
|
|a Information retrieval and text classification are two sub disciplines of text mining
dealing with the content-based text document management. The goal of the information
retrieval system is to retrieve all the documents which are relevant to a user query
while retrieving as few non-relevant documents as possible. Text classification is a
task of assigning labels of predefined classes to the unstructured text documents.
This thesis deals with techniques of dimension reduction in the vector space model for
representation of text documents. The main object of the thesis is a technique of concept
indexing which is compared to the technique of latent semantic indexing in the tasks of
information retrieval and text classification. These two techniques are compared to the
standard technique of text representation in the vector space model in the parameter of
efficiency of information retrieval and text classification, and in the parameter of the
size of the memory space needed for the storage of document representations.
These techniques are also compared in a complexity of classifiers induced by the method
of support vector machines.
Adding of new documents in the space of reduced dimension is a special problem. In this
thesis two new approximate techniques for addition of new documents in the space of reduced
dimension obtained by the method of concept indexing are presented.
Key words:
text mining, information retrieval, text classification, vector space model,
dimensionality reduction, latent semantic indexing, concept indexing, support vector
machines
|
700 |
|
|
|4 ths
|9 9546
|a Dalbelo Bašić, Bojana
|
942 |
|
|
|c D
|2 udc
|
990 |
|
|
|a 32183
|
999 |
|
|
|c 30011
|d 30011
|