Visema

Un visema es cualquier fono entre varios que se ve igual, por ejemplo, en la lectura de labios.^[1]

Los visemas y fonemas no tienen una correspondencia uno a uno. A menudo, varios fonemas corresponden a un solo visema, dado que varios fonemas se ven iguales en el rostro cuando se emiten, como /k, ɡ, ŋ/, (visema: /k/), /t͡ʃ, ʃ, d͡ʒ, ʒ/ (visema: /ch/), /t, d, n, l/ (visema: /t/), y /p, b, m/ (visema: /p/).

De manera similar, algunos sonidos son difíciles de diferenciar acústicamente pero se diferencian con mayor facilidad en el rostro.^[2] Así, por ejemplo, en el inglés hablado, /l/ y /r/ pueden ser muy similares (en particular, en determinadas combinaciones, como grass vs. glass), pero la información visual puede mostrar un contraste más claro. Una manera de comprobarlo es cuando determinadas palabras que son comprensibles cara a cara se confunden al teléfono. Algunos lingüistas sostienen que la mejor manera de comprender el habla es como una combinación bimodal de visual y auditiva, y la comprensión se puede ver comprometida si uno de esos dos elementos está ausente, como probaría el llamado efecto McGurk.^[3]

Referencias

↑ Fisher, C. G. (1968). "Confusions among visually perceived consonants". Journal of Speech and Hearing Research, 11(4):796–804. doi 10.1044/jshr.1104.796.
↑ Chen, T. (2001). "Audiovisual speech processing". IEEE Signal Processing Magazine 18, 9–21. doi 10.1109/79.911195
↑ * McGurk, H. and MacDonald, J. (1976, diciembre). "Hearing lips and seeing voices". Nature 264, 746–748. doi 10.1038/264746a0.

Bibliografía

Chen, T. y Rao R. R. (1998, May). "Audio-visual integration in multi-modal communication". Proceedings of the IEEE 86, 837–852. doi 10.1109/5.664274.
Patrick Lucey, Terrence Martin, Sridha Sridharan (2004). "Confusability of Phonemes Grouped According to their Viseme Classes in Noisy Environments". Presented at Tenth Australian International Conference on Speech Science & Technology, Macquarie University, Sydney, 8 al 10 de diciembre de 2004.

Datos: Q371190

[1] Fisher, C. G. (1968). "Confusions among visually perceived consonants". Journal of Speech and Hearing Research, 11(4):796–804. doi 10.1044/jshr.1104.796.

[2] Chen, T. (2001). "Audiovisual speech processing". IEEE Signal Processing Magazine 18, 9–21. doi 10.1109/79.911195

[3] * McGurk, H. and MacDonald, J. (1976, diciembre). "Hearing lips and seeing voices". Nature 264, 746–748. doi 10.1038/264746a0.

[1]

[2]

[3]