La IA que imita la voz de Bill Gates.

2 julio, 2019

2917

La forma de hablar de las máquinas suele resultar bastante decepcionante. Hasta los mejores sistemas de conversión de texto a voz suenan muy mecánicos y carecen de los cambios de entonación básicos que caracterizan a las personas. El tan famoso sistema de voz de Stephen Hawking es un buen ejemplo.

Si se tienen en cuenta los enormes avances en aprendizaje automático e inteligencia artificial (IA) de los últimos años, la mala calidad de las máquinas parlantes actuales resulta chocante. Las técnicas que han funcionado tan bien a la hora de reconocer caras y objetos, las que son capaces de producir imágenes realistas deberían funcionar igualmente bien con el audio. Pero la realidad no es así.

Los investigadores de Facebook AI Research, Sean Vásquez y Mike Lewis, han encontrado una manera de superar las limitaciones de los sistemas de conversión de texto a voz para producir clips de audio increíblemente realistas y generados completamente por un ordenador. Su máquina, llamada MelNet, no solo reproduce la entonación humana, también puede imitar la voz de personas reales. Así que el equipo lo entrenó para hablar como Bill Gates, entre otros. El trabajo nos permitiría interactuar de forma más realista con los ordenadores, pero también abre la puerta a un nuevo tipo de noticias falsas basadas en audios.

Según fuentes de MIT Technology Review.

Hasta la llegada de la Inteligencia Artificial en el campo de la generación de voz, los sistemas sintetizadores de audio no creaban audio como tal, se limitaban a pegar los fonemas que habían sido grabados previamente. Fue en 2016, cuando se presentó WaveNet, la Inteligencia Artificial basada en machine learning que da voz al asistente de Google que revolucionó los sistemas de conversión de texto a voz.

Antecedentes

Primero algunos antecedentes. El lento progreso en los sistemas realistas de conversión de texto a voz no se debe a la falta de trabajo. Numerosos equipos han intentado entrenar algoritmos de aprendizaje profundo para reproducir patrones de voz realistas con grandes bases de datos de audio.

El problema de este enfoque se basa en el tipo de datos empleados, opinan Vásquez y Lewis. Hasta ahora, la mayoría del trabajo se ha centrado en grabaciones de audio en forma de onda que muestran cómo la amplitud del sonido cambia con el tiempo, y cada segundo de audio grabado consta de decenas de miles de pasos de tiempo.

Estas formas de onda muestran patrones específicos en varias escalas diferentes. Durante unos pocos segundos de habla, por ejemplo, la forma de onda refleja los patrones característicos asociados a las secuencias de las palabras. Pero en la escala de microsegundos, la forma de onda muestra características asociadas al tono y el timbre de la voz. Y en otras escalas, la forma de onda refleja la entonación del hablante, la estructura del fonema, etcétera. Otra forma de definir estos patrones consiste en analizar las correlaciones entre la forma de onda en un paso de tiempo y en el siguiente. Entonces, para una escala de tiempo dada, el sonido al inicio de una palabra se puede correlacionar con los sonidos que siguen.

Los sistemas de aprendizaje profundo suelen aprender y reproducir bien este tipo de correlaciones. El problema es que las correlaciones actúan en diferentes escalas de tiempo, y los sistemas de aprendizaje profundo solo pueden estudiar las correlaciones en escalas de tiempo limitadas. Esto se debe a un tipo de proceso de aprendizaje que emplean, llamado retropopagación, que reconfigura la red repetidamente para mejorar su rendimiento sobre la base de los ejemplos que detecta.

La repetición limita la escala de tiempo en la que se pueden aprender las correlaciones. Por lo tanto, una red de aprendizaje profundo puede aprender correlaciones en formas de onda de audio en escalas de tiempo largas o cortas, pero no en ambas. Esa es la razón por la que se les da tan mal reproducir un discurso.

Así que Vásquez y Lewis proponen un enfoque diferente. En lugar de formas de ondas de audio, han entrenado a su red de aprendizaje profundo con espectrogramas. Los espectrogramas graban todo el espectro de frecuencias de audio y su variación a lo largo del tiempo. Entonces, mientras que las formas de onda capturan el cambio en el tiempo de un parámetro, la amplitud, los espectrogramas capturan el cambio en un amplio rango de diferentes frecuencias.

Esto significa que este tipo de representación de datos incluye mucha más información sobre el audio. La investigación explica: “El eje temporal de un espectrograma es varios órdenes de magnitud más compacto que el de una forma de onda, es decir, decenas de miles de pasos de tiempo en las formas de onda corresponden a cientos de pasos de tiempo en espectrogramas”.

Un paso más en la conversión del texto a la voz

Lo característico de esta tecnología es que se vale de una red neuronal entrenada a partir de espectrogramas de alta resolución que sustituye a los diagramas de formas de onda utilizados hasta ahora.

Mientras las formas de onda capturan el cambio en el tiempo de un parámetro, los espectrogramas capturan el cambio en un amplio rango de frecuencias. Esto permite que se genere una representación de los datos que incluye mucha más información sobre el audio. Esta información es analizada por la IA y trata de imitar su reproducción, según informa el MIT Technology Review.

El equipo de Facebook ha conseguido entrenar esta tecnología para que imite la voz del creador de Microsoft, Bill Gates. MelNet fue entrenada utilizando alrededor de 425 horas de charlas TED y multitud de audiolibros. Este sistema cuenta con algunas limitaciones, ya que todavía no es capaz de replicar la voz con sus variaciones de entonación a lo largo del discurso.

Los asistentes de voz: un arma de doble filo

Este avance, aunque revolucionario, plantea algunos peligros. Si esta tecnología es capaz de imitar la voz humana, ¿cómo sabremos diferenciar un discurso verdadero a uno falso?

Las fake news podrían ser las grandes beneficiarias de esta poderosa tecnología mediante la difusión de discursos políticos o noticias que no se correspondan con la realidad de lo ocurrido. Así que, a partir de ahora, deberemos estar atentos a la veracidad tanto de lo que vemos como de lo que oímos.

MelNet puede reproducir la voz del conferenciante y decir casi cualquier cosa durante unos pocos segundos. Los investigadores de Facebook han demostrado la flexibilidad de MelNet con la charla TED de Bill Gates. Tras el entrenamiento, el sistema es capaz de decir una serie de frases aleatorias con la voz del magnate.

Este es el sistema que dice que “fruncimos el ceño cuando las cosas no van bien” y que “Oporto es un vino fuerte con un sabor ahumado”. Puedes escuchar otros ejemplos aqui

«Fruncimos el ceño cuando las cosas no van bien»

«»Oporto es un vino con un sabor ahumado»

Por supuesto, MelNet tiene algunas limitaciones. El habla humana contiene correlaciones incluso en escalas de tiempo más largas. Por ejemplo, los humanos usan diferente entonación para indicar cambios en el tema o en el estado de ánimo, mientras que las historias se desarrollan en decenas de segundos o minutos. La máquina de Facebook todavía no parece capaz de hacer eso. Así que, aunque MelNet puede crear expresiones extraordinariamente realistas, el equipo aún no ha perfeccionado la pronunciación de frases más largas, párrafos o historias completas. Y no parece que vayan a conseguirlo dentro de poco.

Sin embargo, el trabajo podría tener un gran impacto en la interacción humano-máquina. Muchas conversaciones se basan únicamente en frases cortas. Los operadores de telefonía y los servicios de asistencia en particular pueden funcionar con un rango de frases relativamente cortas. Esta tecnología podría automatizar estas interacciones de una manera mucho más humana que los sistemas actuales. Por el momento, Vásquez y Lewis no han mencionado sus posibles aplicaciones.

Puedes leer el artículo detallado aquí

Artículo anterior

Los procesadores de luz, el futuro de la Inteligencia Artificial.

Artículo siguiente

Translatotron: la herramienta de Google que traduce lo que decimos imitando nuestra forma de hablar.

La IA que imita la voz de Bill Gates.

Según fuentes de MIT Technology Review.

Antecedentes

Un paso más en la conversión del texto a la voz

Los asistentes de voz: un arma de doble filo

Kevin Weil y el futuro de la programación: ¿dejarán atrás a los humanos?

Google lanza Veo 2: una revolución en la creación de vídeos con IA

Implante cerebral: La nueva frontera entre pensamiento y palabra

Most Popular

Windows XP: De la admiración al caos tecnológico

Kevin Weil y el futuro de la programación: ¿dejarán atrás a los humanos?

Google lanza Veo 2: una revolución en la creación de vídeos con IA

Implante cerebral: La nueva frontera entre pensamiento y palabra

Recent Comments

DE OPINION

Empresa envía a teletrabajar por un día a 400 de sus empleados… Solo fue una excusa para despedirlos

Parte importante de la generación Alpha carece de habilidades básicas en el uso de computadoras

¿Qué ha pasado con El Rincón del Vago?

HUMOR

La historia del chatbot que funcionaba tan mal que fue «despedido»

Fotos que nunca deberías subir a tus redes sociales

Con esta web puedes trollear a tus compañeros de trabajo haciéndoles creer que se está actualizando su sistema operativo.

CATEGORIAS POPULARES