EFECTO DEL ENTRENAMIENTO EN LA EFICACIA DE UN
SISTEMA DE RECONOCIMIENTO DE VOZ DE HABLA DISCRETA
EN PERSONAS CON Y SIN ALTERACIONES DEL HABLA
UNIVERSIDAD AUTÓNOMA DE SANTO DOMINGO PRIMADA DE AMERICA
SISTEMA DE RECONOCIMIENTO DE VOZ DE HABLA DISCRETA
EN PERSONAS CON Y SIN ALTERACIONES DEL HABLA
UNIVERSIDAD AUTÓNOMA DE SANTO DOMINGO PRIMADA DE AMERICA
Fundada el 28 de octubre de 1538
FACULTAD DE HUMANIDADESUNIDAD DE POST-GRADO Y EDUCACIÓN PERMANENTE
ASIGNATURA Tecnología Educativa Para el Nivel Superior
ANÁLISIS Y COMENTARIOSDE ARTÍCULOS, DOCUMENTOS O LIBROS FACILITADOS
Prof: Rafael Arias
Realizado por: Jordy Disla
ELEMENTOS A DESTACAR:
1- Datos Identificativos:
1.1. - Título: EFECTO DEL ENTRENAMIENTO EN LA EFICACIA DE UN
SISTEMA DE RECONOCIMIENTO DE VOZ DE HABLA DISCRETA
EN PERSONAS CON Y SIN ALTERACIONES DEL HABLA
1.2.-- Autor: Antonio M. Ferrer Manchón y Vicenta Ávila Clemente
1.3.- Fecha:
1.4.- Lugar (si aplica): Valencia
1.5.- Resumen:
Los sistemas de reconocimiento de voz constituyen hoy día, una alternativa para acceder a los ordenadores personales en el caso de personas con dificultades motrices que impiden un uso normalizado de los dispositivos de entrada de información. Si bien, muchos cuadros de deficiencia motriz tienen una base neurológica que repercute en el control motriz necesario para la producción oral dando lugar a alteraciones que impiden por completo el lenguaje oral, o bien lo dificultan en diverso grado.
Algunos programas de reconocimiento de voz anuncian la posibilidad de adaptarse a estas peculiaridades. En esta línea, el objetivo de nuestro trabajo es determinar la eficacia de un sistema
de reconocimiento de voz, en este caso el Dragón Díctate en personas afectadas de distintas patologías motoras que cursan con alteraciones del habla.
2- Fundamentos teóricos / empíricos relevantes:
La eficacia del sistema se ha determinado mediante el registro y cuantificación de los diversos acontecimientos posibles que se suceden en la tarea de dictado, para ello en cada sesión de trabajo, existe un evaluador junto a la persona que acumula en un registro, siguiendo la propuesta de Atmore, los sucesos que se estén produciendo a lo largo de la interaccion de tres componentes: programas-usuarios-tareas
De este modo, se tiene en consideración:
a) Cuatros variables referidas al sistema: Reconocimiento pleno (“ Acierto”) que supone trasladar al cuerpo del texto que se está dictando de modo exacto.
Reconocimiento aproximado (“Elegir”). Caso de que la palabra u orden que el sistema a seleccionado no sea la correcta, pero que entre las opciones alternativa que ofrece si figure la deseada. Reconocimiento erróneo (“Borrar eso”), cuando el programa escribe una palabra o muestra diversas opciones entre las cuales no se encuentra la que el usuario acaba de utilizar. F (“ no reconoce???”), cuando no ha podido realizar ningún tipo de reconocimiento ni aproximación, quedando sin respuesta.
b) Tres variables referidas al usuario: errores de comandos, referida a errores del usuario pues, a pesar del entrenamiento previo, es común que se produzcan olvido, confusiones en relación con comandos, o que se ignore la necesaria pausas entre palabras. Errores de lectura , en este apartado se registran errores comunes en la lectura del texto ( salto de líneas, confusión de palabra…….) Estado del usuario, se trata de registrar cambios significativos de la voz, carraspeos, bloqueo, etc.
3- Metodología:
Se ha empleado el sistema de reconocimiento de voz Dragon Dictance Classic Edition, Version 1.3
Para Windows. El material dictado por las cuatro personas participantes, correspondía a tres textos con características diferentes entre sí: el texto 1 (T1), corresponde al fragmento de una noticia de periódico de título “El impacto de las Nuevas Tecnologías” que consta de un total de 356 palabras, en su mayoría de uso común. El segundo texto (T2), se titula Perspectivas sobre las parafilias”, y fue extraído de un manual de psicología clínica. Supone, por tanto, el uso de un lenguaje académico, muy específico de un área de conocimiento, y con vocabulario poco común; contiene un total de 338 palabras. Y por último el tercer texto (T3) pertenece a un manual, también de carácter académico y nivel universitario, con vocabulario específico, aunque en este caso relativo a historia. El texto tiene por título “La educación de los cristianos en el imperio romano”. Es el más largo de los tres y cuenta con un total de 402 palabras.
Cuatro han sido las personas que han participado en esta experiencia.
El caso A, corresponde a un hombre de 32 años de edad, normohablante, sin ningún tipo de alteración motriz.
El caso B, se refiere a una mujer de 43 años afectada de parálisis cerebral en forma de tetraparesia espástica con afectación moderada del habla, que podríamos catalogar siguiendo a Le Métayer[2] de Nivel II, es decir, con una articulación comprendida por todo el mundo aunque con dificultades.
El caso C, se refiere a una mujer de 31 años afectada de me Siringomielia, enfermedad degenerativa del S.N.C., actualmente en estado estacionario, que produce una degeneración progresiva en el control del movimiento y con evidencias de alteraciones fono respiratorias que afectan la calidad de la voz, con tendencia a mostrar una microfonía.
Por último el Caso D es un hombre de 36 años de edad afectado de la Enfermedad de Tierry-Marie-Toth, patología igualmente degenerativa del S.N.C. que como en el caso anterior produce una disfonía.
4- Resultados y discusión:
Caso A: Comprobamos que, a excepción del primer texto, entre la sesión segunda y tercera, se produce un incremento del reconocimiento correcto a lo largo de las sesiones, partiendo de un 80% de reconocimiento al inicio de cada texto y finalizando en torno a un 90%. Es notable observar como los errores determinados por la necesidad de introducir el comando “Borrar”, así como la necesidad de presentar nuevas palabras (utilización del “Modo deletreo”), disminuye conforme avanzan las sesiones, hechos estos que contribuyen, sin duda, a la disminución del tiempo de dictado en cada texto según aumentan las sesiones.
Si bien, a excepción del texto dos donde los tiempos de mecanografiado y dictado se igualan, en ningún caso es más rentable, desde un punto de vista temporal, la utilización del reconocimiento de voz, ocupando siempre más tiempo que el mecanografiado.
Caso B: El porcentaje de aciertos también mejora a lo largo de las sesiones. Es la persona a quien más le ha costado familiarizarse con el uso del sistema, destacando, por encima del resto, el número de errores de usuario. Si bien estos siguen un descenso, a excepción de en el tercer texto donde se incrementan los errores en la segunda y tercera sesión respecto a la primera. En cualquier caso, el tiempo de dictado disminuye notablemente en cada texto a lo largo de las sesiones, alcanzando una reducción superior al 50%. Este dato es más significativo, todavía, en esta persona si lo comparamos con el tiempo de mecanografiado prácticamente superior, incluso, que el empleado para la primera sesión en cada texto.
Caso C: En esta persona, como se puede apreciar al igual que en los otros casos, el número de aciertos aumenta a medida que pasan las sesiones de entrenamiento de un texto. Es de destacar, en este caso en particular, la poca acomodación que se produce al principio del sistema a su voz, hecho que se refleja en el gran número de ocasiones que debe utilizar el comando “Borrar eso”, muy por encima del resto de personas. En cambio, la cuantía relativa a porcentaje de aciertos en la última sesión de cada texto es superior al resto de casos. El tiempo de dictado decrece para cada texto a lo largo de las sesiones, y comparado con el texto mecanografiado no cabe duda de la utilidad de este sistema para esta persona. Tomando como referencia la última sesión del texto 3, tendríamos que le es posible llegar a producir en un texto escrito de modo correcto, alrededor de 26 palabras por minuto, mientras que mecanografiando su ritmo no alcanza las 3 palabras por minuto.
Caso D: En los resultados de la tabla 2 se observa como el porcentaje de aciertos aumenta a medida que pasan las sesiones de dictado del mismo texto, manteniéndose en torno al 90% de aciertos en las últimas sesiones. Es de destacar que el tiempo de mecanografiado es muy similar al de dictado, si tomamos en cuenta la primera sesión. Cuando se ha producido un entretenimiento ya es mucho menor el tiempo empleado en la tarea del dictado.
5- Conclusiones relevantes
Notamos que, tras el entrenamiento del sistema, en la primera sesión de trabajo con un texto se suele alcanzar por parte de los casos estudiados un porcentaje de reconocimiento correcto de entre un 75/85%. Tras dos sesiones más, se alcanzan valores que oscilan alrededor del 90%, o se sitúan por encima de este valor, demostrando que el sistema es capaz de mejorar con el entrenamiento.
Si bien, las ganancias entre la segunda y la tercera sesión nunca parecen ser muy notables. Tomando en cuenta la persona normo hablante, en el mejor de los casos no supera los cinco puntos (91,8-96,7% entre las sesiones 2 y 3 del Texto2), llegando incluso a disminuir en el caso del primer texto en casi dos puntos. Este perfil de variación también se cumple para el caso de las personas con alteraciones del habla, siendo notable observar que el porcentaje de reconocimiento final es completamente comparable, superior en ocasiones (véase Caso C), al de la persona normo hablante. También hemos de resaltar que el porcentaje de reconocimiento se mantiene en la primera sesión, independientemente de la longitud y tipo de texto, en torno a los mismos valores de 80%. Esto es, pareciera que el progresivo trabajo con el sistema no hace fructificar un porcentaje inicial más alto. En este caso es posible que el procedimiento llevado a cabo, donde cada texto nuevo implica una complejidad mayor y un vocabulario poco común, sea el causante de este fenómeno.
Mecanografiada nos ayuda a reafirmar nuestra conclusión de utilidad. Si bien, a fin de poder realizar un juicio más adecuado, hay que estudiar cada caso de forma individual tomando en cuenta la finalidad a que se destina el sistema y las posibilidades que la persona tiene de realizar la misma tarea con otros medios que pudieran ser más eficaces. En nuestro trabajo evidenciamos que, para una persona sin alteración de la movilidad ni del habla, el sistema de reconocimiento de voz no es una alternativa al uso del teclado; ya que el tiempo empleado en el mecanografiado siempre es menor que el utilizado en el dictado de los textos. En cuanto a las personas con alteraciones del habla, es evidente que la limitación manipulativa que presenta el Caso C, reflejada en el tiempo de mecanografiado, aconsejaría la utilización del sistema de reconocimiento de voz, sin ninguna duda.
En los otros dos casos, el uso del sistema estaría supeditado a la utilidad para la que fuera a ser destinado; es decir, como el tiempo de dictado disminuye a medida que aumenta el uso, podemos pensar que, así mismo, disminuiría sólo si los textos a introducir son de temáticas similares, ya que su diccionario se irá renovando con las palabras más usadas.
6- Aspectos a criticar
En cualquier caso, y de acuerdo con Griffith[5], en prevención de la frecuente frustración que se suele producir en las etapas iníciales de uso de ciertas tecnologías de ayuda, frente a las grandes expectativas que en ellas se depositan, hay que advertir a las personas con dificultades en su expresión oral que, comenzar a obtener un buen rendimiento en un sistema de reconocimiento de voz, puede ocupar en torno a las 30/50 horas de interacción con él. Sólo después de este tiempo se establece un óptimo perfil de la voz del usuario, siendo entonces cuando se comienzan a obtener los porcentajes de precisión y la tasa de dictado prometidas en los folletos de publicidad comercial de los productos. En el caso de hablantes sin alteraciones, las mejoras en el rendimiento de los últimos productos de habla continua son alcanzados tras un trabajo con el sistema de alrededor de doce horas.
Jordy Disla
Los sistemas de reconocimiento de voz constituyen hoy día, una alternativa para acceder a los ordenadores personales en el caso de personas con dificultades motrices que impiden un uso normalizado de los dispositivos de entrada de información. Si bien, muchos cuadros de deficiencia motriz tienen una base neurológica que repercute en el control motriz necesario para la producción oral dando lugar a alteraciones que impiden por completo el lenguaje oral, o bien lo dificultan en diverso grado.
Algunos programas de reconocimiento de voz anuncian la posibilidad de adaptarse a estas peculiaridades. En esta línea, el objetivo de nuestro trabajo es determinar la eficacia de un sistema
de reconocimiento de voz, en este caso el Dragón Díctate en personas afectadas de distintas patologías motoras que cursan con alteraciones del habla.
2- Fundamentos teóricos / empíricos relevantes:
La eficacia del sistema se ha determinado mediante el registro y cuantificación de los diversos acontecimientos posibles que se suceden en la tarea de dictado, para ello en cada sesión de trabajo, existe un evaluador junto a la persona que acumula en un registro, siguiendo la propuesta de Atmore, los sucesos que se estén produciendo a lo largo de la interaccion de tres componentes: programas-usuarios-tareas
De este modo, se tiene en consideración:
a) Cuatros variables referidas al sistema: Reconocimiento pleno (“ Acierto”) que supone trasladar al cuerpo del texto que se está dictando de modo exacto.
Reconocimiento aproximado (“Elegir”). Caso de que la palabra u orden que el sistema a seleccionado no sea la correcta, pero que entre las opciones alternativa que ofrece si figure la deseada. Reconocimiento erróneo (“Borrar eso”), cuando el programa escribe una palabra o muestra diversas opciones entre las cuales no se encuentra la que el usuario acaba de utilizar. F (“ no reconoce???”), cuando no ha podido realizar ningún tipo de reconocimiento ni aproximación, quedando sin respuesta.
b) Tres variables referidas al usuario: errores de comandos, referida a errores del usuario pues, a pesar del entrenamiento previo, es común que se produzcan olvido, confusiones en relación con comandos, o que se ignore la necesaria pausas entre palabras. Errores de lectura , en este apartado se registran errores comunes en la lectura del texto ( salto de líneas, confusión de palabra…….) Estado del usuario, se trata de registrar cambios significativos de la voz, carraspeos, bloqueo, etc.
3- Metodología:
Se ha empleado el sistema de reconocimiento de voz Dragon Dictance Classic Edition, Version 1.3
Para Windows. El material dictado por las cuatro personas participantes, correspondía a tres textos con características diferentes entre sí: el texto 1 (T1), corresponde al fragmento de una noticia de periódico de título “El impacto de las Nuevas Tecnologías” que consta de un total de 356 palabras, en su mayoría de uso común. El segundo texto (T2), se titula Perspectivas sobre las parafilias”, y fue extraído de un manual de psicología clínica. Supone, por tanto, el uso de un lenguaje académico, muy específico de un área de conocimiento, y con vocabulario poco común; contiene un total de 338 palabras. Y por último el tercer texto (T3) pertenece a un manual, también de carácter académico y nivel universitario, con vocabulario específico, aunque en este caso relativo a historia. El texto tiene por título “La educación de los cristianos en el imperio romano”. Es el más largo de los tres y cuenta con un total de 402 palabras.
Cuatro han sido las personas que han participado en esta experiencia.
El caso A, corresponde a un hombre de 32 años de edad, normohablante, sin ningún tipo de alteración motriz.
El caso B, se refiere a una mujer de 43 años afectada de parálisis cerebral en forma de tetraparesia espástica con afectación moderada del habla, que podríamos catalogar siguiendo a Le Métayer[2] de Nivel II, es decir, con una articulación comprendida por todo el mundo aunque con dificultades.
El caso C, se refiere a una mujer de 31 años afectada de me Siringomielia, enfermedad degenerativa del S.N.C., actualmente en estado estacionario, que produce una degeneración progresiva en el control del movimiento y con evidencias de alteraciones fono respiratorias que afectan la calidad de la voz, con tendencia a mostrar una microfonía.
Por último el Caso D es un hombre de 36 años de edad afectado de la Enfermedad de Tierry-Marie-Toth, patología igualmente degenerativa del S.N.C. que como en el caso anterior produce una disfonía.
4- Resultados y discusión:
Caso A: Comprobamos que, a excepción del primer texto, entre la sesión segunda y tercera, se produce un incremento del reconocimiento correcto a lo largo de las sesiones, partiendo de un 80% de reconocimiento al inicio de cada texto y finalizando en torno a un 90%. Es notable observar como los errores determinados por la necesidad de introducir el comando “Borrar”, así como la necesidad de presentar nuevas palabras (utilización del “Modo deletreo”), disminuye conforme avanzan las sesiones, hechos estos que contribuyen, sin duda, a la disminución del tiempo de dictado en cada texto según aumentan las sesiones.
Si bien, a excepción del texto dos donde los tiempos de mecanografiado y dictado se igualan, en ningún caso es más rentable, desde un punto de vista temporal, la utilización del reconocimiento de voz, ocupando siempre más tiempo que el mecanografiado.
Caso B: El porcentaje de aciertos también mejora a lo largo de las sesiones. Es la persona a quien más le ha costado familiarizarse con el uso del sistema, destacando, por encima del resto, el número de errores de usuario. Si bien estos siguen un descenso, a excepción de en el tercer texto donde se incrementan los errores en la segunda y tercera sesión respecto a la primera. En cualquier caso, el tiempo de dictado disminuye notablemente en cada texto a lo largo de las sesiones, alcanzando una reducción superior al 50%. Este dato es más significativo, todavía, en esta persona si lo comparamos con el tiempo de mecanografiado prácticamente superior, incluso, que el empleado para la primera sesión en cada texto.
Caso C: En esta persona, como se puede apreciar al igual que en los otros casos, el número de aciertos aumenta a medida que pasan las sesiones de entrenamiento de un texto. Es de destacar, en este caso en particular, la poca acomodación que se produce al principio del sistema a su voz, hecho que se refleja en el gran número de ocasiones que debe utilizar el comando “Borrar eso”, muy por encima del resto de personas. En cambio, la cuantía relativa a porcentaje de aciertos en la última sesión de cada texto es superior al resto de casos. El tiempo de dictado decrece para cada texto a lo largo de las sesiones, y comparado con el texto mecanografiado no cabe duda de la utilidad de este sistema para esta persona. Tomando como referencia la última sesión del texto 3, tendríamos que le es posible llegar a producir en un texto escrito de modo correcto, alrededor de 26 palabras por minuto, mientras que mecanografiando su ritmo no alcanza las 3 palabras por minuto.
Caso D: En los resultados de la tabla 2 se observa como el porcentaje de aciertos aumenta a medida que pasan las sesiones de dictado del mismo texto, manteniéndose en torno al 90% de aciertos en las últimas sesiones. Es de destacar que el tiempo de mecanografiado es muy similar al de dictado, si tomamos en cuenta la primera sesión. Cuando se ha producido un entretenimiento ya es mucho menor el tiempo empleado en la tarea del dictado.
5- Conclusiones relevantes
Notamos que, tras el entrenamiento del sistema, en la primera sesión de trabajo con un texto se suele alcanzar por parte de los casos estudiados un porcentaje de reconocimiento correcto de entre un 75/85%. Tras dos sesiones más, se alcanzan valores que oscilan alrededor del 90%, o se sitúan por encima de este valor, demostrando que el sistema es capaz de mejorar con el entrenamiento.
Si bien, las ganancias entre la segunda y la tercera sesión nunca parecen ser muy notables. Tomando en cuenta la persona normo hablante, en el mejor de los casos no supera los cinco puntos (91,8-96,7% entre las sesiones 2 y 3 del Texto2), llegando incluso a disminuir en el caso del primer texto en casi dos puntos. Este perfil de variación también se cumple para el caso de las personas con alteraciones del habla, siendo notable observar que el porcentaje de reconocimiento final es completamente comparable, superior en ocasiones (véase Caso C), al de la persona normo hablante. También hemos de resaltar que el porcentaje de reconocimiento se mantiene en la primera sesión, independientemente de la longitud y tipo de texto, en torno a los mismos valores de 80%. Esto es, pareciera que el progresivo trabajo con el sistema no hace fructificar un porcentaje inicial más alto. En este caso es posible que el procedimiento llevado a cabo, donde cada texto nuevo implica una complejidad mayor y un vocabulario poco común, sea el causante de este fenómeno.
Mecanografiada nos ayuda a reafirmar nuestra conclusión de utilidad. Si bien, a fin de poder realizar un juicio más adecuado, hay que estudiar cada caso de forma individual tomando en cuenta la finalidad a que se destina el sistema y las posibilidades que la persona tiene de realizar la misma tarea con otros medios que pudieran ser más eficaces. En nuestro trabajo evidenciamos que, para una persona sin alteración de la movilidad ni del habla, el sistema de reconocimiento de voz no es una alternativa al uso del teclado; ya que el tiempo empleado en el mecanografiado siempre es menor que el utilizado en el dictado de los textos. En cuanto a las personas con alteraciones del habla, es evidente que la limitación manipulativa que presenta el Caso C, reflejada en el tiempo de mecanografiado, aconsejaría la utilización del sistema de reconocimiento de voz, sin ninguna duda.
En los otros dos casos, el uso del sistema estaría supeditado a la utilidad para la que fuera a ser destinado; es decir, como el tiempo de dictado disminuye a medida que aumenta el uso, podemos pensar que, así mismo, disminuiría sólo si los textos a introducir son de temáticas similares, ya que su diccionario se irá renovando con las palabras más usadas.
6- Aspectos a criticar
En cualquier caso, y de acuerdo con Griffith[5], en prevención de la frecuente frustración que se suele producir en las etapas iníciales de uso de ciertas tecnologías de ayuda, frente a las grandes expectativas que en ellas se depositan, hay que advertir a las personas con dificultades en su expresión oral que, comenzar a obtener un buen rendimiento en un sistema de reconocimiento de voz, puede ocupar en torno a las 30/50 horas de interacción con él. Sólo después de este tiempo se establece un óptimo perfil de la voz del usuario, siendo entonces cuando se comienzan a obtener los porcentajes de precisión y la tasa de dictado prometidas en los folletos de publicidad comercial de los productos. En el caso de hablantes sin alteraciones, las mejoras en el rendimiento de los últimos productos de habla continua son alcanzados tras un trabajo con el sistema de alrededor de doce horas.
Jordy Disla
No hay comentarios:
Publicar un comentario