MARC: Algoritmi za razdvajanje spojenica

Algoritmi za razdvajanje spojenica

Spojenice su greške u pisanju nastale spajanjem dviju „nespojivih“ riječi u hrvatskome jeziku, za razliku od složenica koje nastaju spajanjem dviju različitih riječi koje pritom čine novu regularnu riječ. S obzirom da Hascheck ne ispravlja takve riječi, niti ih prepoznaje kao greške imali smo za za...

Full description

Permalink:	http://skupni.nsk.hr/Record/fer.KOHA-OAI-FER:44916/Details
Glavni autor:	Kelava, Kristijan (-)
Ostali autori:	Dembitz, Šandor (Thesis advisor)
Vrsta građe:	Drugo
Impresum:	Zagreb, K. Kelava, 2014.


LEADER	04539na a2200205 4500
003	HR-ZaFER
005	20160516012004.0
008	160221s2014 ci \|\|\|\|\| m\|\|\| 00\| 0 d
035		\|a (HR-ZaFER)ferid1494
040		\|a HR-ZaFER \|b hrv \|c HR-ZaFER \|e ppiak
100	1	\|a Kelava, Kristijan \|9 35106
245		\|a Algoritmi za razdvajanje spojenica : \|b diplomski rad / \|c Kristijan Kelava ; [mentor Šandor Dembitz].
246	1	\|a Run-on word split-up algorithms \|i Naslov na engleskom:
260		\|a Zagreb, \|b K. Kelava, \|c 2014.
502		\|b diplomski studij \|c Fakultet elektrotehnike i računarstva u Zagrebu \|g smjer: Računalno inženjerstvo, šifra smjera: 55, datum predaje: 2014-02-07, datum završetka: 2014-02-26
520		\|a Spojenice su greške u pisanju nastale spajanjem dviju „nespojivih“ riječi u hrvatskome jeziku, za razliku od složenica koje nastaju spajanjem dviju različitih riječi koje pritom čine novu regularnu riječ. S obzirom da Hascheck ne ispravlja takve riječi, niti ih prepoznaje kao greške imali smo za zadatak ostvariti tu metodu segmentacije. Program je izveden u programskom jeziku Java sa razvojnim okruženjem Eclipse, a sastoji se od pet metoda od kojih je svaka zasebna i odrađuje svoj dio posla kako bi sustav funkcionirao kao cjelina. Funkcionalnost programa je jednostavna, a sastoji se od čitanja ulaznih riječi iz ulazne datoteke, provjeravanja postojanja te riječi u bazi unigrama, spremanja pojedinih nizova znakova u „liste“, provjere gdje se riječi mogu i moraju razdvojiti te o razdvajanju istih. Kao izlaz dobijemo točnu segmentaciju u većini slučajeva, naravno u ovisnosti od točnosti baze. Prilikom segmentacije ne brine se i o ispravljanju slova tamo gdje je to potrebno, tj. gdje bi to u hrvatskom jeziku u pisanju bila pogreška. Recimo da imamo spojenicu „spojenariječ“ pisanu kao takvu, kao rezultat izvođenja dobiti ćemo ispravno pisane hrvatske riječ „spojena riječ“. Program se ne brine i o hrvatskim dijakritičkim znakovima jer su isti u Hascheckovoj bazi pisani u kodnim shemama. Također, program ispravlja (segmentira) više od dvije spojene riječi, a do maksimalno pet tako da se u bliskoj budućnosti nadograđivanjem Hascheck-a i njegovih algoritama postigne razdvajanje cjelokupnog teksta što trenutno nije moguće, što zbog nekolicine loših ulaznih podataka, koje uguše program, zbog nedosljednosti baze unigrama, što zbog toga jer su neka hrvatska slova koja stoje zasebno i same riječi, a u taj se problem nije ulazilo. Ključne riječi: spojenica, složenica, pravopisni provjernik
520		\|a Run-on words errors were made in the writing of a merger between two "incompatible" words in the Croatian language, as opposed to a compound words caused by merging two different words that are pushing for a new regular one. Since Hascheck does not correct such words, nor are they recognized as a mistake, we had a task to achieve this segmentation method. The program is carried in Java programming language with Eclipse development environment, and consists of five methods, each of which is separate and does its part to make the system function as a whole. The functionality of the program is simple and consists of reading words from the base of the input files, checking the existence of the word in the database, saving the individual strings in a "List", check where the words can be separated and the separation thereof. As output we get the correct segmentation in most cases, of course, depending on the accuracy of the database. When segmentation is concerned, the program is not correcting the letters where necessary, ie where it would be a mistake of writing in the Croatian language. Suppose we have the word "connectedword", a text as such, as a result of the execution will be properly written Croatian word „connected word“. The program doesn't care about the Croatian diacritical marks and how they are written in Hascheck's code-based schemes. Also, the program corrects (segments) more than two connected words, so in the near future upgrading Hascheck and its algorithms will achieve complete separation of the text which is not possible for now, because of a few bad input data, which choke the program, due to inconsistencies of a base of unigrams, and because some Croatian language has some letters that stand alone as the word itself, and that was a problem in which we did not enter. Key words: run-on words, compound words, spellchecker
700	1	\|a Dembitz, Šandor \|4 ths \|9 9620
942		\|2 udc \|c Y
999		\|c 44916 \|d 44916

Algoritmi za razdvajanje spojenica

Slični primjerci