Event detection in newspaper texts

U izlaganju se prikazuje problem pronalaženja događaja u skupini dokumenata - članaka objavljenih na novinskim portalima. Kako se u ovom slučaju informacijskom jedinicom smatra pojedini dokument, radi se o problemu klasifikacije dokumenata s nepoznatim popisom i brojem kategorija. Taj se problem rje...

Full description

Permalink: http://skupni.nsk.hr/Record/ffzg.KOHA-OAI-FFZG:317010/Details
Matična publikacija: Series of talks in language technology - JOTA (Jezikovnotehnološki abonma)
Ljubljana : 2010
Glavni autor: Ljubešić, Nikola, informatičar (-)
Vrsta građe: Članak
Jezik: eng
Online pristup: http://bib.irb.hr/datoteka/507919.ljubesic10-event.pdf
http://lojze.lugos.si/jota/
LEADER 02370naa a2200241uu 4500
008 131111s2010 xx 1 eng|d
035 |a (CROSBI)507919 
040 |a HR-ZaFF  |b hrv  |c HR-ZaFF  |e ppiak 
100 1 |9 445  |a Ljubešić, Nikola,   |c informatičar 
245 1 0 |a Event detection in newspaper texts /  |c Ljubešić, Nikola. 
246 3 |i Naslov na engleskom:  |a Event detection in Newspaper Texts 
300 |f str. 
520 |a U izlaganju se prikazuje problem pronalaženja događaja u skupini dokumenata - članaka objavljenih na novinskim portalima. Kako se u ovom slučaju informacijskom jedinicom smatra pojedini dokument, radi se o problemu klasifikacije dokumenata s nepoznatim popisom i brojem kategorija. Taj se problem rješava metodom klasteriranja bez prethodno poznatog broja kategorija kao jednom od oblika nenadzirane klasifikacije. Istražuju se sva tri važna koraka u tehnikama klasteriranja - formalizacija dokumenta, računanje matrice udaljenosti te samo klasteriranje. Pri formalizaciji dokumenta pozornost se posvećuje odabiru značajki za prikaz dokumenta (uklanjanje funkcijskih riječi, hapax legomena), ekstrakciji značajki (morfološka normalizacija, višečlani izrazi) te mjerama težina značajki. U koraku računanja matrice udaljenosti istražuje se više metrika udaljenosti iz područja geometrije, teorije skupova te teorije informacija. Kod algoritama za klasteriranje odabire se između jednostavnijih algoritama jednim prolazom i kompleksnijih hijerarhijskih algoritama. Krajnje oblikovani algoritam koristi pretežno statističke, jezično nezavisne metode te postiže F0.5 vrijednost od ~ 0.8. 
536 |a Projekt MZOS  |f 130-1301679-1380 
546 |a ENG 
690 |a 5.04 
693 |a pronalaženje događaja, novinski tekstovi, jezično nezavisne metode, jezično zavisne metode  |l hrv  |2 crosbi 
693 |a event detection, newspaper text, language independent methods, language dependent methods  |l eng  |2 crosbi 
773 0 |a Series of talks in language technology - JOTA (Jezikovnotehnološki abonma) (28.10.2010. ; Ljubljana, Slovenija)  |t Series of talks in language technology - JOTA (Jezikovnotehnološki abonma)  |d Ljubljana : 2010 
856 |u http://bib.irb.hr/datoteka/507919.ljubesic10-event.pdf 
856 |u http://lojze.lugos.si/jota/ 
942 |c RZB  |u 2  |v Nista  |z Znanstveni - Pozvano - ppt  |t 3.15 
999 |c 317010  |d 317008