Sustav za ekstrinzičnu i intrinzičnu detekciju plagijata u studentskim radovima

Sažetak na hrvatskom: Cilj ekstrinzičnog otkrivanja plagijata je prepoznavanje ukradenih odlomaka teksta u danom dokumentu koristeći bazu referentnih dokumenata. U intrinzičnoj detekciji plagijata se krađa prepoznaje bez korištenja vanjskih izvora. U ovom radu su preložena dva sustava intrinzičnog i...

Full description

Permalink: http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:51300/Details
Glavni autor: Lozić, David (-)
Ostali autori: Šnajder, Jan (Thesis advisor)
Vrsta građe: Drugo
Impresum: Zagreb, D. Lozić, 2019.
Predmet:
LEADER 03862na a2200229 4500
003 HR-ZaFER
008 160221s2019 ci ||||| m||| 00| 0 en d
035 |a (HR-ZaFER)ferid6807 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
100 1 |a Lozić, David  |9 39791 
245 1 0 |a Sustav za ekstrinzičnu i intrinzičnu detekciju plagijata u studentskim radovima :  |b diplomski rad /  |c David Lozić ; [mentor Jan Šnajder]. 
246 1 |a A System for Extrinsic and Intrinsic Plagiarism Detection in Student Theses  |i Naslov na engleskom:  
260 |a Zagreb,  |b D. Lozić,  |c 2019. 
300 |a 28 str. ;  |c 30 cm +  |e CD-ROM 
502 |b diplomski studij  |c Fakultet elektrotehnike i računarstva u Zagrebu  |g smjer: Računarska znanost, šifra smjera: 56, datum predaje: 2019-06-28, datum završetka: 2019-07-10 
520 3 |a Sažetak na hrvatskom: Cilj ekstrinzičnog otkrivanja plagijata je prepoznavanje ukradenih odlomaka teksta u danom dokumentu koristeći bazu referentnih dokumenata. U intrinzičnoj detekciji plagijata se krađa prepoznaje bez korištenja vanjskih izvora. U ovom radu su preložena dva sustava intrinzičnog i dva sustava ekstrinzičnog otkrivanja plagijata. Za potrebe eksperimentiranja korišten je skup podataka iz PAN 2009 natjecanja. Prvi sustav ekstrinzične detekcije koristi odabir kandidata za smanjivanje prostora pretraživanja. Odabrani kandidati su zatim detaljno uspoređivani s sumnjivim dokumentom koristeći mjesno osjetljive metode raspršivanja. Ovim pristupom ostvaren je vrlo nizak plagdet rezultat 0.076. Drugi sustav koristi raspršivanje N-grama u izradi indeksa sačinjenog od baze referentnih dokumenata. Takav indeks je korišten u analizi sumnjivih dokumenata. Uz ovakvu metodu postignut je visok plagdet rezultat 0.507. Prvi sustav intrinzične detekcije plagijata koristi stilometrijske značajke u detekciji stršećih vrijednosti, dok drugi pristup koristi povratne neuronske mreže. Plagdet rezultati za obje metode su relativno niski i iznose 0.106 i 0.094. 
520 3 |a Sažetak na engleskom: The goal of extrinsic plagiarism detection is to locate plagiarized passages in a given document using a database of external reference documents. In contrast, intrinsic detection systems do not have such a database at their disposal, and rely on detecting stylometric changes within the document to uncover theft. This thesis explores two extrinsic and two intrinsic detection systems. The PAN 2009 plagiarism detection competition is used for experimentation. To narrow the search space, the first extrinsic system uses candidate retrieval to retrieve possibly plagiarized documents from the reference document database. The retrieved documents are then exhaustively compared with the suspicious document using similarity hashing. The system achieves a low plagdet score of 0.076. The second system uses character N-gram hashes to create a large key-value index from the reference database. This index is then used for analyzing the suspicious document. A high plagdet score of 0.507 was achieved using this method. The first intrinsic system uses feature engineering with outlier detection In the second system a more novel approach is used based on recurrent neural networks and outlier detection to achieve similar results. The two intrinsic methods achieved fairly low plagdet scores of 0.106 and 0.094 respectively. 
653 1 |a Obrada prirodnog jezika  |a povrat informacija  |a strojno učenje  |a detekcija plagijata  |a intrinzična detekcija plagijata  |a ekstrinzična detekcija plagijata  |a PAN 2009  |a one-class SVM  |a povratna neuronska mreža 
653 1 |a Natural language processing  |a information retrieval  |a machine learning  |a plagiarism detection  |a intrinsic plagiarism detection  |a extrinsic plagiarism detection  |a PAN 2009  |a one-class SVM  |a recurrent neural network 
700 1 |a Šnajder, Jan  |4 ths  |9 19016 
942 |c Y 
999 |c 51300  |d 51300