Google innova en procesamiento del habla

Bloomberg | Viernes 09 septiembre, 2016 12:00 a. m.

Imagen con fines ilustrativos. Bloomberg/La República.

(Bloomberg) --
La división DeepMind de Google, que trabaja para desarrollar computadoras superinteligentes, ha creado un sistema de procesamiento del habla que, según dice, supera la tecnología existente en 50%.

La empresa británica DeepMind, que Google compró por cerca de $533 millones en 2014, desarrolló una inteligencia artificial llamada WaveNet, que puede imitar la voz humana al aprender cómo formar las ondas sonoras individuales que crean la voz de una persona, anunció la empresa en una entrada de blog.

En pruebas ciegas para el inglés de Estados Unidos y el chino mandarín, oyentes humanos encontraron que el habla generada por WaveNet sonaba más natural que la creada por cualquiera de los programas de texto a habla de Google, que se basan en tecnologías diferente. WaveNet, de todos modos, tuvo un desempeño inferior al del habla humana real.

Muchos programas de procesamiento del habla por computadora usan un gran conjunto de datos de grabaciones cortas de un único hablante humano y luego combinan estos fragmentos del habla para formar nuevas palabras. El resultado es inteligible y suena humano, aunque no completamente natural. La desventaja es que el sonido de la voz no se puede modificar fácilmente. Otros sistemas forman la voz por medios totalmente electrónicos, por lo común basados en reglas sobre cómo se pronuncian ciertas combinaciones de letras. Estos sistemas permiten manipular con facilidad el sonido de la voz, pero suelen sonar menos naturales que el habla generada por computadora sobre la base de grabaciones de hablantes humanos, dijo DeepMind.

{l1}google_y_apple_se_dedican_a_telemedicina_telefonicas_fracasaron{/l1}

WaveNet es un tipo de inteligencia artificial llamada red neural y fue diseñada para imitar la forma en que funcionan partes del cerebro humano. Estas redes deben ser entrenadas con grandes conjuntos de datos.WaveNet no tendrá aplicaciones comerciales inmediatas porque el sistema requiere demasiado poder de computación: tiene que muestrear la señal de audio en la que está siendo entrenada 16 mil veces por segundo o más, dijo DeepMind. Para cada una de esas muestras tiene que hacer luego una predicción sobre el aspecto que tendrá la onda sonora basándose en cada uno de los ejemplos anteriores. Hasta los investigadores de DeepMind reconocieron en una entrada de su blog que "sin duda es una tarea desafiante".

Por otra parte, aunque los investigadores han avanzado mucho en cuanto a lograr que las computadoras entiendan el lenguaje hablado, su capacidad de contestar de formas que parezcan completamente humanas está más rezagada.

WaveNet es otro acierto de DeepMind, que es más conocida por haber creado AlphaGo, un sistema de inteligencia artificial que este año derrotó al mejor jugador mundial del juego de estrategia Go.

Google ha dicho poco sobre cómo la investigación de DeepMind la ha ayudado en el plano comercial, aunque la compañía reveló que ha usado la tecnología de DeepMind para reducir un 40% los requerimientos de energía de sus centros de datos, con lo que ahorró suficiente dinero como para justificar el monto que Google gastó para comprar la compañía londinense de inteligencia artificial.