Saltu al enhavo

Komputa lingvoscienco

El Vikipedio, la libera enciklopedio

Komputa lingvoscienco (aŭ komputila lingvistiko) provas uzi komputilojn por esplori kaj manipuli voĉan aŭ skribitan parolon.

Klasoj de programoj

[redakti | redakti fonton]

Oni distingas inter analizaj programoj unuflanke, sintezaj aŭ generaj programoj aliflanke.

En analizo, voĉa aŭ skribita teksto eniĝas, kaj la programo provas formaligi la ricevatajn informojn. Ekzemple ĝi aŭtomate eltiras resumon el iom longa teksto. Aŭ se la enigo estas demando, la programo serĉas tra datumbazo tekstojn, kiuj provizas respondon eĉ en alia vortumo. Aŭ aŭtomate eltrovitaj estas statistikoj pri la vortprovizo, sinonimoj, ktp.

En sintezo, la programoj eligas frazojn aŭ tekstojn komputitajn laŭ provizitaj informoj. Ekzemple el indikoj pri varmo, seko, vento kaj koncernaj loknomoj, programo redaktas tekstojn de veterprognozo. Se plie la tekstojn eldiras arta voĉo, estas bezonataj la rimedoj de parolsintezo.

Iuj programoj uzas kaj analizadon, kaj sintezadon. En aŭtomata aŭ duonaŭtomata tradukado, oni sinsekve analizas la fontlingvan tekston kaj sintezas la cellingvan tekston.

Multaj aplikoj de lingvokomputiko estas unulingvaj – krom traduko kompreneble. Ili ankaŭ povas esti dulingvaj: ekzemple indeksado en iu lingvo de dokumentoj en alia lingvo.

Analizaj aplikoj

[redakti | redakti fonton]
  • aŭtomata lingvorekono – respondas la demandon en kiu lingvo estas ĉi tiu teksto?
  • helpo al korektado – kontrolas ortografie aŭ gramatike tekstojn
  • aŭtomata indeksado – respondas la demandon kiuj estas en ĉi tiu teksto la signifaj temvortoj (ŝlosilvortoj)?
  • aŭtomata klasado de tekstoj – mezuras la intersimilon de tekstoj por ilin disklasi
  • informserĉo – trovas tekstojn laŭ donita temo, eĉ kun malsimilaj vortumoj...

Sintezaj aplikoj

[redakti | redakti fonton]
  • aŭtomata elparolo de teksto – voĉe diras tekstojn kun taŭgaj akcentado kaj melodio, eĉ malgraŭ eventuale malsimpla ortografio
  • aŭtomata noticado – redaktas laŭ bazaj informoj.

Miksaj aplikoj

[redakti | redakti fonton]
  • helpo al redakto – proponas pli bonajn vortumojn, ekzemple en fremda, far la redaktanto ne tre bone regata lingvo
  • aŭtomata resumado – elektas signifajn frazojn de teksto, eventuale novredaktas ilin
  • aŭtomata dialogo – kondukas ekzemple tra problemdiagnozo, demandante la uzanton pri la problemo kaj respondante el sia scibazo
  • aŭtomata traduko – provas redoni tekston en alia lingvo.

Procedoj kaj iloj

[redakti | redakti fonton]

Lingvokomputistoj uzas formaligitajn specojn de gramatikoj kaj vortaroj, nome komputaj gramatikoj kaj komputaj vortaroj. Ĉi tiujn ili ofte miksas kun aliaj rimedoj, precipe statistikaj kaj memoraj.

Statistiko povas ĝeneraligi el provizitaj ekzemploj. Ekzemple por la tasko identigi lingvon, unu konata algoritmo estas preni la oftecon de triliteraĵoj el tekstoj de konataj lingvoj kaj kompari kun triliteraĵoj de la proponata teksto.

Memorbazo estas artifiko efika ekzemple en traduko de fakaj tekstoj, en kiuj samaj esprimoj ofte aperas, kiaj estas juraj tekstoj. Memorsistemo registras originalajn tekstopecojn kaj la respondajn homfaritajn tradukojn, kaj reproponas la tradukojn kiam la samaj aŭ tre similaj fontotekstoj aperas.

Ekzemploj kaj utilaj nocioj

[redakti | redakti fonton]

Programlingvoj por lingvistiko

[redakti | redakti fonton]

Universitatoj kaj kompanioj laborantaj pri lingvokomputiko ofte kreas proprajn programlingvojn laŭ siaj bezonoj. El la publike konataj programlingvoj iuj pli facile uziĝas en lingvokomputiko:

  • Perl taŭgas por provaj programoj unuflanke per siaj potencaj literĵokeroj (regulaj esprimoj), aliflanke per pluraj krom-pakaĵoj dediĉitaj al lingvanalizo
  • Prolog, bazita sur formala logiko, taŭgas por prikomputi lingvojn, sed ankaŭ por aŭtomata rezonado.

Komputaj vortaroj

[redakti | redakti fonton]
  • genelex estas iom malsimpla vortarmodelo, kiun planis kaj uzis pluraj kompanioj en la 1980aj-1990aj jaroj

Komputaj gramatikoj

[redakti | redakti fonton]

Tekstaroj

[redakti | redakti fonton]

Ekde la 1990-aj jaroj la uzo de tekstaroj (korpusoj) populariĝis en lingvistiko.

Literaturo

[redakti | redakti fonton]
  • Frank, Helmar/Lánsky, M. (1992) "Eine rechnerunterstützte Wortbildungsgrammatik auf der Grundlage der Ideen von Komensky, Zamenhof und de Saussure". En: Grkg/Humankybernetik 33/1, 5-19.
  • Ouyang Wendao (1985): "Enkonduko de 5-dimensia modelo de ĉin-lingva informo kaj algoritmaj studoj pri vort-identigo, fraz-analizo kaj semantika prezentado". En: Koutny Ilona (Red.): Perkomputila Tekstoprilaboro. Budapest: Scienca Eldona Centro, 145-152.
  • Schubert, Klaus (1989): "A Dependency Syntax of Esperanto". En: Maxwell, Dan/Schubert, Klaus (Red.): Metataxis in Practice. Dependency Syntax for Multilingual Machine Translation. Dordrecht/Providence: Foris, 207-232.
  • (1992): "Esperanto as an Intermediate Language for Machine Translation". En: Newton, John (Red.): Computers in Translation. London/New York: Routledge, 78-95
  • Sherwood, Bruce (1985): "Sintezo de Esperanto kaj de diversaj naturaj lingvoj." En: Koutny Ilona (Red.): Perkomputila Tekstoprilaboro. Budapest: Scienca Eldona Centro. 49-56.
  • Sgall, Petr (1988): "On some Results of the Conference". En: Maxwell, Dan/Schubert, Klaus/Witkam, Toon (Red.): New Directions in Machine Translation. Dordrecht/Providence: Foris, 243-249.
  • Witkam, A.P.M. (1985): "Distribuita Lingvo-Tradukado". En: Koutny, Ilona (Red.): Perkomputila Tekstoprilaboro . Budapest: Scienca Eldona Centro. 207-228.
  • Batori, I.S./Lenders, W. et al. (eds.), 1989. Computational Linguistics. An international handbook of computer oriented language research and applications. Berlin, New York: de Gruyter (= Handbücher zur Sprach- und Kommunikationswissenschaft. vol. 4)
  • Schmitz, Ulrich, 1992. Computerlinguistik. Eine Einführung. Opladen: Westdeutscher Verlag.

Vidu ankaŭ

[redakti | redakti fonton]

Eksteraj ligiloj

[redakti | redakti fonton]