Identifikacija jezika

Prepoznavanje ali identifikacija jezika je proces določanja naravnega jezika neke dane vsebine. Včasih se je prepoznavanje zapisanega jezika - kot npr. v bibliotekarstvu - opiralo na ročno prepoznavanje pogostih besed in črk, značilnih za določene jezike. V zadnjem času so se tega problema lotili tudi z računalniškim pristopom, pri čemer prepoznavanje jezika obravnavajo kot vrsto kategorizacije besedila. Gre za pristop obdelave naravnega jezika (Natural Language Processing), ki temelji na statističnih metodah.

Jezikovne kategorije

Sistemi za identifikacijo jezika lahko temeljijo na različnih lastnostih jezika, ki so podrobneje predstavljene v literaturi s področja jezikoslovja (Nickel, 1985). Identifikacija jezika je zahteven problem, saj je dokaj težko določiti kategorije po katerih se jeziki razlikujejo med seboj (Morgan, 1991). Tudi govorci, ki tekoče govorijo več sorodnih jezikov, težko opišejo po čem ločijo posamezne sorodne jezike. Možne osnovne kategorije, po katerih lahko ločujemo jezike med seboj, so:

Fonologija: jeziki imajo različen nabor fonemov, vendar je del fonemov mnogokrat skupen več jezikom. Med jeziki je tudi razlika v pogostosti pojavljanja posameznega fonema in njihovih zaporedij.
Prozodika: naglas, trajanje in višina fonema se razlikuje med jeziki.
Skladnja: način tvorjenja stavkov je različen. Tudi v primeru, da je ena beseda skupna več jezikom, prihaja do razlik v kontekstu, v katerem beseda nastopi.
Morfologija: način tvorjenja besed, slovarji besed in koreni besed so različni za jezik.

Naštete razlike med jeziki in njihove kombinacije služijo današnjim sistemom identifikacije jezika kot osnova za delovanje. Prvi dve kategoriji se več uporabljata v primeru, ko moramo identificirati jezik na osnovi analize govornega signala. Ta način ugotavljanja jezika pride do izraza pri večjezičnem razpoznavanju govora, kjer na primer identifikator jezika najprej identificira jezik in nato aktivira razpoznavalnik govora za ta jezik. Drugi dve kategoriji jezika sta primernejši za identifikacijo jezika iz danega besedila.

Neračunalniški pristopi

V bibliotekarstvu je prepoznavanje jezika pomembno za kategorizacijo gradiva. Knjižničarji morajo pogosto kategorizirati gradiva v njim neznanih jezikih, zato se pogosto opirajo na tabele pogostih besed in značilnih črk oz. znakov, ki jim pomagajo določiti jezik. Čeprav s prepoznavo ene same besede ni vedno mogoče razločiti dveh jezikov s podobnim pravopisom, pa je prepoznava več besed zelo zanesljiva.

Statistični pristopi

To lahko storimo s primerjavo stisljivosti besedila s stisljivostjo besedila v poznanih jezikih. Ta pristop imenujemo meritev razdalje, ki temelji na vzajemnih informacijah. Enako tehniko lahko uporabimo za empirično konstrukcijo družinskih dreves jezikov, ki se precej ujemajo z drevesi, ki so zgrajena na podlagi historičnih metod.

Še ena tehnika, ki jo je opisal Dunning (1994), pa je, da ustvarimo n-gram preučevanega besedila (tj. nekakšen verjetnostni vzorec, ki pove, kakšna je verjetnost, da bo v nekem zaporedju ena beseda sledila drugi) in ga primerjamo z modeli že znanih jezikov. Jezik tistega modela, ki najmanj odstopa, je verjetno tudi jezik preučevanega besedila.

Zunanje povezave