Mine sisu juurde

Kõnesüntees

Allikas: Vikipeedia

Kõnesüntees (inglise keeles speech synthesis) on inimkõne kunstlik produtseerimine kas inimhääle omaduste sünteesimise abil või salvestatud inimkõne üksuste (foneemid, difoonid, sõnad vms) ühendamise teel.[viide?]

Kõnesünteesiga tegelevat arvutiprogrammi nimetatakse kõnesüntesaatoriks. Seda kõneanalüsaatoriga kombineerides on võimalik luua keskkond, kus inimene saab arvuti või mõne arvutit sisaldava seadmega suhelda ainult kõne vahendusel.[viide?]

1779. aastal ehitas Peterburis elanud Taani teadlane Christian Gottlieb Kratzenstein inimese kõnetrakti mudeleid, mis suutsid tekitada viit vokaali. Nende eeskujul lõi 1791. aastal Ungari teadlane Wolfgang von Kempelen akustilis-mehaanilise kõnemasina, mis suutis tänu keele ja huulte mudeli lisamisele tekitada peale vokaalide ka konsonante. Tegemist oli mehaaniliste aparaatidega, mis jäljendasid inimese kõnetrakti tööd rääkimise ajal. Analoogseid mehaanilisi ja poolelektroonilisi süsteeme ehitati ja arendati ilma suurema eduta 1960. aastateni. [1]

1920. aastatel tehti esimesi katsetusi kõne elektroonilise sünteesiga. Esimeste tulemusteni jõuti 1930. aastate keskel, mil Bell Labsis ehitati VOCODER ja selle eeskujul Homer Dudley loodud VODER 1939. aastal. Viimane koosnes heli- ja müraallikast, põhitooni kõrgust juhtivast pedaalist ja sõrmedega juhitavatest filtritest. Esimese formantsünteesil põhineva süntesaatori PAT ehitas Walter Lawrence 1953. aastal. [viide?]

Esimene artikulatoorne kõnesüntesaator loodi 1958. aastal Massachusettsi Tehnoloogiainstituudi laborites. Üks esimesi teksti kõneks teisendatavaid (Text-To-Speech, TTS) kõnesüntesaatoreid ehitati Jaapanis 1968. aastal. 1980. aastatel oli turul juba hulk kommertssüsteeme. [viide?]

1990. alustati kompilatiivse kõnesünteesiga, mille puhul võeti aluseks kõnekorpustes olevad üksused ja ühendati need omavahel seotud kõneks. Esimeseks tuntumaks süsteemiks sai MBROLA. [viide?]

  • Formantsüntees 1970. ja 1980. aastatel Keele ja Kirjanduse Instituudis (praeguses Eesti Keele Instituudis]) ning Küberneetika Instituudis] (Eugen Künnap, Olev Künnap, Arvo Ott, Mart Rohtla, Imre Siil, Einar Meister, Maidu Raudsepp, Mart Remmel, Toomas Tago, Meelis Mihkla).
  • Difoonsüntees (alates 1997–2003) Eesti Keele Instituudis], Küberneetika Instituudis] ja Filosoft OÜs (Meelis Mihkla, Einar Meister, Arvo Eek).
  • Kompilatiivne ehk korpuspõhine süntees (alates 2006) Eesti Keele Instituudis (Meelis Mihkla, Indrek Hein, Indrek Kiissel).
  • Audiovisuaalne kõnesüntees (alates 2010) Küberneetika Instituudis (Einar Meister, Rainer Metsvahi)[viide?]

Sünteesimeetodid

[muuda | muuda lähteteksti]

Kõnesünteesi puhul kasutatakse erinevaid sünteesimeetodeid [2]:

  • Artikulatoorne süntees – mudel, mille puhul imiteeritakse inimese kõneelundite tegevust.
  • Formantsüntees – elektrooniline mudel, kus heliallikas imiteerib häälekurdude võnkumist ja filter kõnetrakti resonantssagedusi.
  • Kompilatiivne e korpuspõhine süntees – lahendus, mis põhineb kõnekorpuses olevate salvestatud naturaalse kõne kõnelõikude (foneemide, difoonide, trifoonide, silpide, morfeemide, sõnade, lausete jne) omavahelisel ühendamisel.
    • Difoonsüntees (sünteesi aluseks on kahest naaberfoneemist koosnevad lõigud)
    • Muutuva pikkusega segmentide valimine (sünteesi aluseks on eri pikkusega kõnelõigud)
  • Nägemis- ja kõnepuuetega inimeste abivahendid
  • Keeleõpe
  • Infosüsteemid
  • Dialoogsüsteemid
  • Subtiitrite helindamine
  • Emotsionaalse kõne süntees
  • Uudistelugeja[viide?]
  1. Lemmetty, Sami 1999: Review of Speech Synthesis Technology. Master's thesis. Helsinki University of Technology.
  2. Meister, Einar.; Alumäe, Tanel 2010: Kuidas arvuti kuulab ja kõneleb. Horisont, 5.. Master's thesis. Helsinki University of Technology.

Välislingid

[muuda | muuda lähteteksti]