Traducció automàtica
Aquest article o secció no cita les fonts o necessita més referències per a la seva verificabilitat. |
La traducció automàtica (TA) és la traducció d'un text informatitzat (o text en suport informàtic) en la llengua de partida o llengua origen a la llengua d'arribada o llengua meta mitjançant un sistema informàtic compost d'un ordinador i d'un Programa d'ordinador especialitzat. La tradumàtica (o tecnologies de la traducció) és el conjunt dels principis del tractament automàtic de la traducció i de les aplicacions utilitzades pel traductor (programari de processament de textos, bases de dades o programari de terminologia, assistència a la correcció, corpus, bitextos i cercadors de concordances, memòries de traducció, extractors de terminologia, programari de traducció automàtica, etc.). A escala fonamental, la TA es limita a substituir les paraules per llur equivalent en el llenguatge original. Utilitzant tècniques estadístiques basades en corpus (bitext format per l'original i la seva traducció), el resultat pot ser més elaborat, i permet una millor manipulació de les diferents tipologies lingüístiques, el reconeixement de frases, igual que la detecció d'anomalies.
També es pot configurar alguns programaris de traducció per àmbit o professió (per exemple àmbit meteorològic). Aquesta tècnica és especialment efectiva per a àmbits en els quals s'utilitza llenguatge formal i fórmules lingüístiques especialitzades.
Es pot millorar el resultat final amb la intervenció humana: per exemple, alguns sistemes permeten una millor qualitat de sortida quan l'usuari identifica les paraules del text que són noms. La traducció amb sistemes informàtics és de gran ajuda per als traductors humans, però no els substitueix, ja que no pot produir resultats amb la mateixa qualitat.
Darrerament han pres força les tècniques estadístiques basades en aproximacions interactives-predictives, en què l'ordinador fa suggeriments al traductor humà sobre les possibles traduccions. I accepta o modifica segons el criteri d'aquest darrer.
La traducció avui en dia és el principal coll d'ampolla de la societat de la informació i la seva mecanització representa un gran avenç de cara de l'allau d'informació i la necessitat de comunicació interlingüística.
El primer desenvolupament informàtic per a la traducció de què es té constància és del 1946 amb el famós ordinador ENIAC. Entre els investigadors pioners cal destacar Warren Weaver, de la Fundació Rockefeller. El qual va donar a conèixer públicament la disciplina anticipant possibles mètodes científics per a abordar-los: ús de tècniques criptogràfiques, l'aplicació del teorema de Shannon i la utilitat de l'estadística, així com la possibilitat d'aprofitar la lògica subjacent al llenguatge humà i les seves aparents propietats universals.
Actualment s'obtenen alts nivells de qualitat per a la traducció entre llengües romàniques (català, occità, aragonès, sard, castellà, francès, portuguès, etc.). Això no obstant, els resultats empitjoren com més allunyades tipològicament siguin les llengües entre elles, com és el cas de la traducció entre el català i l'anglès o l'alemany.
Tipus de traducció automàtica
modificaSi disposem de prou informació, les traduccions automàtiques poden funcionar prou bé, això permet que persones amb una llengua materna particular siguin capaces de fer-se una idea del que ha escrit una altra persona en el seu idioma. El problema està en obtenir la informació adequada per a cadascun dels mètodes de traducció.
Segons la seva aproximació, els sistemes de traducció automàtica es poden classificar en dos grans grups: els basats en regles lingüístiques per una part i els que utilitzen analogies amb un corpus textuals per l'altre.
Traducció automàtica basada en regles
modificaLa traducció automàtica basada en regles consisteix en realitzar transformacions a partir de l'original, substituint els mots per llur equivalent més apropiat.
En general, en una primera fase s'analitzarà el text, normalment creant una representació simbòlica interna. En funció de l'abstracció d'aquesta representació també podem trobar diferents graus: de directes, que sobretot fan traduccions mot per mot, fins a interlingua (llenguatge intermedi), que empra una representació intermediària completa.
Transferència
modificaEn la traducció per transferència, l'anàlisi de l'original fa un paper més important, i dona pas a una representació interna que és la que s'utilitza com a enllaç per a traduir entre idiomes diferents.
Llenguatge intermedi (Interlingua)
modificaLa traducció automàtica a partir d'un llenguatge intermediari és un cas particular de la traducció automàtica basada en regles. El llenguatge original és transformat en un llenguatge intermediari, l'estructura del qual és independent de la del llenguatge original i de la del llenguatge final. El text final s'obté a partir de la representació del text en el llenguatge intermediari.
Traducció automàtica basada en corpus
modificaLa traducció automàtica a partir d'analogies amb un corpus lingüístic es basa en l'anàlisi de mostres reals amb les seves respectives traduccions. Entre els mecanismes que utilitzen corpus s'inclouen els mètodes estadístics i els basats en exemples.
Estadística
modificaL'objectiu de la traducció automàtica és de generar traduccions a partir de mètodes estatístics basats en corpus de textos bilingües, com per exemple les actes del parlament europeu, que estan traduïdes en tots els idiomes oficials de la Unió Europea. Si l'existència d'aquest corpus fos major, es podrien aconseguir resultats excel·lents en traduir textos d'àmbits similars.
El primer programa de traducció automàtica estadística va ser Candide, desenvolupat per IBM. Avui en dia Google utilitza SYSTRAN, però està treballant en un mètode de traducció estadística per a les seves futures traduccions automàtiques. Recentment han millorat les seves capacitats traductores afegint 200 bilions de paraules de les Nacions Unides que permeten d'entrenar el sistema.
Malgrat que l'exactitud de les traduccions, tant estadístiques com altres, ha augmentat amb els anys, la gran quantitat de possibilitats que té una paraula de ser traduïda d'un idioma a un altre relega la traducció automàtica a un mètode que tan sols permet de transmetre la idea essencial.
Basada en exemples
modificaLa traducció automàtica basada en exemples, es caracteritza per l'ús d'un corpus lingüístic com a principal font de coneixement a temps real. És essencialment una traducció per analogia i pot ser interpretada com una implementació del raonament per casos de base utilitzat en l'aprenentatge automàtic, que consisteix en la resolució d'un problema fonamentant-se en la solució de problemes similars.
Traducció automàtica basada en el context
modificaLa traducció automàtica basada en el context utilitza tècniques fonamentades en trobar la millor traducció per una paraula atenent la resta de paraules que l'envolten. Més que més aquest mètode es basa en tractar el text en unitats d'entre 4 i 8 paraules, de manera que es tradueix cadascuna per la seva traducció a l'idioma de destinació i s'eliminen les traduccions que hagin creat una frase sense sentit. Llavors es mou la finestra d'una posició (paraula), retraduint-ne la major part de nou i tornant a filtrar, deixant només les frases coherents. I finalment es concatenen els resultats de les finestres de manera que s'aconsegueixi una única traducció del text. De les possibles opcions de traducció es tria la que apareix més vegades en el corpus.
És per tant un mètode basat en idees prou simple que ofereix molt bons resultats en comparació amb altres mètodes. Com a avantatge també afegeix la facilitat d'afegir noves llengües. Puix que només cal:
- Un bon diccionari, que pot ser qualsevol versió comercial adaptada mitjançant regles gramaticals per tenir els verbs conjugats i els noms/adjectius amb les seves variacions de nombre i gènere.
- Un corpus en la llengua destinació, que es pot treure fàcilment per exemple d'Internet. Sense la necessitat de traduir cap part, com en els mètodes estadístics.