Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao inog jezika)

U radu je opisana shema za označavanje pogrešaka u CroLTeC-u – prvom računalnom učeničkom korpusu hrvatskog kao inog jezika. Shema označavanja pogrešaka djelomično se temelji na shemi upotrijebljenoj u razvojnom korpusu slovenskog jezika – Šolaru i shemi koja se upotrebljava u korpusu Cambridge Lear...

Full description

Permalink: http://skupni.nsk.hr/Record/nsk.NSK01001116028/Details
Matična publikacija: Rasprave Instituta za hrvatski jezik i jezikoslovlje (Online)
46 (2020), 2 ; str. 899-920
Glavni autor: Mikelić Preradović, Nives (Author)
Vrsta građe: e-članak
Jezik: hrv
Predmet:
Online pristup: https://doi.org/10.31724/rihjj.46.2.24
Hrčak
LEADER 04092naa a22003614i 4500
001 NSK01001116028
003 HR-ZaNSK
005 20211207142249.0
006 m d
007 cr||||||||||||
008 211022s2020 ci ad |o |0|| ||hrv
024 7 |2 doi  |a 10.31724/rihjj.46.2.24 
035 |a (HR-ZaNSK)001116028 
040 |a HR-ZaNSK  |b hrv  |c HR-ZaNSK  |e ppiak 
041 0 |a hrv  |b hrv  |b eng 
042 |a croatica 
044 |a ci  |c hr 
080 1 |a 811.163.42  |2 2011 
100 1 |a Mikelić Preradović, Nives  |4 aut 
245 1 0 |a Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao inog jezika)  |h [Elektronička građa] /  |c Nives Mikelić Preradović. 
300 |b Ilustr. ; graf. prikazi. 
504 |a Bibliografske bilješke uz tekst ; bibliografija: str. 917-919. 
504 |a Sažetak ; Abstract. 
520 |a U radu je opisana shema za označavanje pogrešaka u CroLTeC-u – prvom računalnom učeničkom korpusu hrvatskog kao inog jezika. Shema označavanja pogrešaka djelomično se temelji na shemi upotrijebljenoj u razvojnom korpusu slovenskog jezika – Šolaru i shemi koja se upotrebljava u korpusu Cambridge Learner te je prilagođena hrvatskom jeziku. Shema je razvijena kako bi se označio dio tekstova u korpusu CroLTeC te kako bi se omogućilo istraživačima i stručnjacima koji se bave proučavanjem hrvatskog kao inog jezika da uoče koji aspekti jezika određenim skupinama učenika uzrokuju najviše poteškoća u usvajanju hrvatskog te da prilagode nastavne materijale različitim skupinama učenika (ne samo s obzirom na njihovo poznavanje hrvatskog jezika nego i s obzirom na materinski jezik). 
520 |a The paper describes the error-tagging scheme developed for the CroLTeC learner corpus (http://nlp.ffzg.hr/resources/corpora/croltec/) – the first electronic learner corpus of Croatian as a foreign language. CroLTeC contains essays collected from 755 students with 36 different mother tongues, among which the most prominent were Spanish, English, German, Polish, Chinese, French, and Arabic. It consists of 4,747 essays, out of which 1,217 were digitally born, while 3530 essays were scanned, transcribed in RTF format, and converted into XML format. CroLTeC has a total of 1,054,287 tokens, and essays have been collected on all 6 levels of Common European Framework of Reference for Languages (CEFR) at Croaticum – Center for Croatian as Second and Foreign Language at the Faculty of Humanities and Social Sciences in Zagreb, Department of Information Sciences, Natural Language Processing group. All CroLTeC essays contain metadata about the title, number, and type of essay (homework, part of an exam or field class, etc.). Data were lemmatized and annotated with morphosyntactic tags with the ReLDI tagger (Ljubešić et al., 2016). Also, the corpus is searchable by age, sex, language proficiency level, and the mother tongue of the learner. The error-tagging scheme is partially based on Šolar (the scheme of Developmental corpus of Slovene) and the error-coding of the Cambridge Learner Corpus and further tailored to the Croatian language. The goal of the development of the error-tagging scheme is to build a sub-corpus that will serve as a repository of authentic data about the learner’s interlanguage. It should enable researchers and teachers of Croatian as a foreign language to explore the interlanguage, to discover the aspects of the grammar that are the most difficult to master and to tailor teaching materials to different groups of learners (not only according to their Croatian language proficiency level but also to their first language). 
653 |a CroLTeC 
653 0 |a Hrvatski jezik  |a Hrvatski kao strani jezik  |a Označavanje pogrešaka  |a Učenje jezika 
773 0 |t Rasprave Instituta za hrvatski jezik i jezikoslovlje (Online)  |x 1849-0379  |g 46 (2020), 2 ; str. 899-920  |w nsk.(HR-ZaNSK)000848712 
981 |b Be2020  |b B04/20 
998 |b tino2112 
856 4 0 |u https://doi.org/10.31724/rihjj.46.2.24 
856 4 0 |u https://hrcak.srce.hr/245476  |y Hrčak 
856 4 1 |y Digitalna.nsk.hr