Corpus-hizkuntzalaritza

Corpus-hizkuntzalaritza hizkuntza "testu-errealetan" dauden adibideen arabera ikertzeaz arduratzen da. Metodo honek, lengoaia natural bat zuzentzen duten arau multzo abstraktuak inferitzen dituen ikuspegi bat aurkezten du, lengoaia horri dagozkion testuak aztertuz, gainera, lengoaia horrek beste lengoaia batzuekiko dituen harremanak ezartzen saiatzen da. Antzina testu-corpusak eskuz egiten ziren, baina gaur egun prozesu automatiko baten bidez eskuratzen dira gehienetan.

Filologiaren arloan corpusak ahozkoak zein idatzizkoak diren testuak eta hauek biltzen dituzten dokumentuak eratzen dituzte, era berean, testu guztiak behar bezala izan behar dira biltegiratuak. Corpus hauek hizkuntzalaritza aplikatuan erabiltzen diren ereduak osatzen dituzte, bestek beste, ikertzen ari denaren ezaugarriak ikertu eta analizatzeko. Corpus bat, corpus horrekin lortu nahi diren helburuen arabera definitu behar da.

Corpus-hizkuntzalaritzaren aldekoak uste dute hizkuntzaren analisi fidagarrienak testuinguru natural batean sortzen diren laginen gainean egiten diren analisietan sortzen direla. Corpus-hizkuntzalaritzaren barnean ikuspegi desberdinak daude corpus-etiketatzearen balioari dagokionez, John Sinclairrek^[1] adibidez, etiketazte murriztu baten alde egiten du, testuek "beraien kabuz hitz egin dezaten", Survey of English Usage^[2] eta beste batzuek etiketatze handiago baten alde egiten duten bitartean, hizkuntzaren ulermena hobetzeko asmoarekin.

Historia

Deskribapen gramatikalaren lehenengo aztarnak erlijio-corpusetan nahiz kultura-corpusetan daude oinarrituta, partean behintzat. Era berean, gramatika arabiarra asko oinarritu zen Koranaren hizkuntzan. Mendebaldeko Europako adituek konkordantziak prestatu zituzten Biblian eta bestelako testu kanonikoetan erabilitako lengoaiaren ikerketa sakona ahalbidetzeko.

Corpus-hizkuntzalaritzan gertaera gogoangarri bat suposatu zuen Henry Kucera eta W. Nelson Francis-en Computational Analysis of Present-Day American English liburuaren argitarapenak 1967. urtean, zeina Brown corpusaren analisian oinarritzen zen. Liburua, gaur egungo ingeles amerikarraren aukeraketa arduratsu bat da, guztira milioi bat hitz baino gehiagoz konposatua zeinak iturri anitzetatik izan ziren hartuak. Kucera eta Francisek oso lan aberatsa eratu zuten, elementu linguistikoak, hizkuntzen irakaskuntza, psikologia, estadistika eta soziologiaren elementuak bateratzen dituena. Beste argitalpen garrantzitsu bat Randolph Quirk-en Towards a description of English Usage (1960) liburuarena izan zen, non ingelesaren erabileraren ikerkuntza barneratu zen.

Hortik gutxira, Houghton-Mifflin argitaletxeak Kuceraren pausoak jarraituz milioi bat hitz biltzea lortu zuen bere hiztegi berriarentzat: American Heritage Dictionary, corpus-hizkuntzalaritza erabiliaz sortutako lehenengo hiztegia. Hiztegi honek pauso berriztatzaile bat eman zuen, elementu preskriptiboak informazio deskribatzailearekin konbinatuz. Beste argitaletxe batzuek eredu hori jarraitu zuten.

Lehenengo corpus digitala 1971. urtean egin zen Montrealgo proiektu frantsesaren eskutik. Corpus honek milioika hitz zituen eta are luzeagoa zen beste corpus baten sorrera bultzatu zuen, Shana Poplack's, Ottawa-Hull areako ahozko frantsesarena.

Bizirik dauden hizkuntzen corpusaz gain, corpus digitaletan antzinako hizkuntzetan idatziak dauden testuen bildumak ere egin dira. Adibide bat Andersen-Forbesen biblia hebrearraren datu-basea da, zeina 1970. urtean izan zen garatua. Corpus honetako klausula guztiak zazpi sintaxi maila irudikatzen dituzten paragrafoak erabiliz aztertzen dira eta segmentu guztiak zazpi informazio-eremurekin daude etiketatuta. Koraneko arabiarraren corpusa Koraneko arabiar klasikoaren corpus etiketatu bat da. Proiektu hau, etiketatzearen hainbat geruza erabiliz eratu da, horien artean, segmentazio morfologikoa, etiketatze gramatikala eta analisi sintaktikoa eta dependentzia-gramatika erabiliz.

Metodoak

Corpus-hizkuntzalaritzak hainbat ikerketa-metodo garatu ditu datuetan ezkutua dagoen informazioa ateratzeko. Wallis eta Nelsonek 2001. urtean aurkeztu zuten lehen aldiz beraiek "3 A-ren perspektiba" deitzen zutena (3A perspective), hau da: etiketatzea (annotation), abstrakzioa (abstraction) eta analisia (analysis).

Etiketatzea testuentzako eskema bat aplikatzean datza. Etiketatzea hainbat geruzatan banatu daiteke adibidez: etiketa estrukturala, etiketatze gramatikala, analisi sintaktikoa eta beste hainbat errepresentazio.
Abstrakzioa eskeman dauden terminoak itzultzean (mapatzean) datza, beraien zentzu teorikoa ateratzeko.
Analisia datuak ikertzean, manipulatzean eta sortzean datza, modu estatistiko batean. Honek ebaluazio estatistikoak, erregela batzuen oinarrien optimizazioak edo ezagutza metodo berrien aurkikuntzak ekar ditzake.

Gaur egungo corpus lexiko gehienak kategoria gramatikalaren mailan etiketatuta daude. Hala ere, etiketatu gabeko testuarekin lan egiten duten corpus hizkuntzalariek ere batzuetan hitz nabarmengarriak isolatzeko teknikak erabiltzen dituzte. Egoera horietan, etiketatzea eta abstrakzioa konbinatu egiten dira bilaketa lexiko baterako.

Etiketatzea duen corpus bat argitaratzearen abantaila nagusia beste erabiltzaileek esperimentuak egin dezaketela da. Sortzaileek zituztenengandik desberdintzen diren interes eta perspektiba batzuk dituzten hizkuntzalariek lan hori erabili dezakete. Datuak partekatzean, corpuseko hizkuntzalariak gai dira corpusak hizkuntza eztabaidarako erabiltzeko, ezagutza iturri gisa erabili beharrean.

Corpus-hizkuntzalaritza vs. Gramatika sortzailea

Corpus-hizkuntzalaritza lengoaia naturalaren erabileratik sortzen da. Lengoaiei buruzko ezagutza lortzeko erabiltzen den metodo enpiriko/induktibo bat da, horretarako: adibide zehatz askoren behaketa lana egiten da, objektuaren teoria orokor bat formulatzea lortzen den arte. Ezagutza ororen funtsa esperientzian oinarritzen dela sinesten du prozesu enpiriko honek (zehatzetik orokorrera). Kontrako aldean arrazionalismoaren filosofiatik jaiotzen den metodo deduktiboa aurkitzen da: gogoeta erabiliz hizkuntzak nola eratuta dauden aurkitzen saiatzen da (orokorretik konkretura).

Corpus-hizkuntzalaritza: metodo edo diziplina?

Oraindik ez dago adostasunik corpus-hizkuntzalaritza metodologia aplikatu orokorra den edo diziplina zientifiko bat denari buruz. Metodo bat gisa hartzearen alde,egitate bat da hizkuntzalaritzaren adar asko, analisi enpirikoak egiteko teknikak erabiltzen dituztela, corpusa metodikoki erabiliz, nahiz eta hau ez den modu esklusibo batean egiten. Ez da kontsideratzen ordea, corpus-hizkuntzalaritzaren objektu originala denik. Hala ere beharrezkoa litzateke bat edukitzea, diziplina zientifiko independente gisa hartu nahi bada. Diziplina zientifiko gisa kontsideratzearen alde esan dezakegu lengoaiaren erabilera determinatzen duela ezagutzaren objektu bezala eta modu horretan gizakiaren hizkuntza-gaitasuna sistema semiotiko bezala hartzen duten hizkuntza-teorietatik desberdintzen dela. Printzipio hori kontuan eduki gabe, diziplina zientifiko gisa finkatu da corpus-hizkuntzalaritza mundu akademikoan.

Corpus-hizkuntzalaritza Euskal Herrian

Azken urteotan indar handia hartzen ari dira euskarazko web corpusak, batez ere hizkuntzaren prozesamenduaren arloan erabiltzeko. Esate baterako Euskal Herriko unibertsitateko informatika fakultatean sortutako Ixa taldeak hizkuntza-tresna ugari garatu dituzte corpus-hizkuntzalaritza oinarri gisa erabiliz. Era berean, EHUk berak baditu bere baitan zenbait corpus kanpotik kontsultatzeko moduan denentzat irekiak utzi dituenak. Hitzak esaldiaren barnean kontsulta daitezke hor, edo testuinguru zabalagoan zenbait kasutan. Hauek dira corpus horietako batzuk: Egungo Testuen Corpusa (ETC), Ereduzko Prosa Gaur (EPG), Ereduzko Prosa Dinamikoa (EPD), Euskal Klasikoen Corpusa (EKC), ZIO corpusa, Zuzenbide corpusa, GOENKALE corpusa eta Pentsamenduaren Klasikoak corpusa. Corpus hauek guztiak bata bestearengandik desberdin egiten dituzten karakteristikak dituzte eta gehienak milioika hitzez osatuta daude.

Erreferentziak

↑ Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
↑ Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007.e-Published

Kanpo estekak

Bookmarks for Corpus-based Linguists -- very comprehensive site with categorized and annotated links to language corpora, software, references, etc.
Corpora discussion list
Freely-available, web-based corpora (100 million - 400 million words each): American (COCA, COHA), British (BNC), TIME, Spanish, Portuguese
Manuel Barbera's overview site
Przemek Kaszubski's list of references
AskOxford.com the composition and use of the Oxford Corpus
DMCBC.com
Datum Multilanguage Corpora Based on chinese free sample download
Corpus4u Community a Chinese online forum for corpus linguistics
McEnery and Wilson's Corpus Linguistics Page
Corpus Linguistics with R mailing list
Research and Development Unit for English Studies
Survey of English Usage
The Centre for Corpus Linguistics at Birmingham University
Gateway to Corpus Linguistics on the Internet: an annotated guide to corpus resources on the web
Biomedical corpora
Linguistic Data Consortium, a major distributor of corpora
Penn Parsed Corpora of Historical English
Corsis: (formerly Tenka Text) an open-source (GPLed) corpus analysis tool written in C#
ICECUP and Fuzzy Tree Fragments
Research and Development Unit for English Studies
Discussion group text mining
Euskarazko web corpusen ataria
EHUko corpusak
Ixa taldearen hizkuntza produktuak

[1] Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.

[2] Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007.e-Published

[1]

[2]