Con solo una muestra de 5 segundos, este sistema puede clonar tu voz. No sólo es fácil sino también «increíble y terrorífico»

4 diciembre, 2019

1843

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis es el trabajo de varios investigadores de Google, con un vocoder (codificador de voz) que funciona en tiempo real.

A partir de una muestra de voz cualquiera genera en cuestión de segundos una transcripción de texto-a-voz bastante realista utilizando esa misma voz de muestra; el código se puede bajar y probar aquí: Real Time Voice Cloning.

El vocoder que utiliza este sistema es WaveNet, una red neuronal profunda para generar audio a partir de muestras, creado por la gente de DeepMind.

Dicho sistema consta de tres componentes capacitados de forma independiente:

(1) una red de codificador de altavoces, capacitada en una tarea de verificación de altavoces utilizando un conjunto de datos independiente de voz ruidosa sin transcripciones de miles de hablantes, para generar un vector de incrustación de dimensiones fijas a partir de solo segundos de voz de referencia de un hablante objetivo

(2) una red de síntesis secuencia a secuencia basada en Tacotron 2 que genera un espectrograma mel a partir del texto, condicionado de altavoces

(3) una red de vocoder basada en WaveNet autorregresiva que convierte el espectrograma mel en muestras de forma de onda en el dominio del tiempo.

Se demostró que el modelo propuesto es capaz de transferir el conocimiento de la variabilidad del hablante aprendido por el codificador de hablante entrenado de manera discriminatoria al text-to-speech (TTS) de múltiples altavoces

Es una mezcla de increíble y terrorífico, pues estas cosas no sabes para qué maldad terminarán usándose, a pesar de que se haya concebido como una tecnología totalmente neutra.
Mikeal Roger

Tags
vocoder

Artículo anterior

Los físicos han encontrado un metal que conduce la electricidad, pero no el calor.

Artículo siguiente

El FBI pone recompensa de $ 5 millones de dolares por los piratas informáticos rusos detrás del malware bancario Dridex

Con solo una muestra de 5 segundos, este sistema puede clonar tu voz. No sólo es fácil sino también «increíble y terrorífico»

Google lanza Veo 2: una revolución en la creación de vídeos con IA

Google y la IA: ¿Un paso más hacia la pérdida de privacidad?

Google Willow: El Chip Cuántico que Redefine la Computación

Most Popular

Windows XP: De la admiración al caos tecnológico

Kevin Weil y el futuro de la programación: ¿dejarán atrás a los humanos?

Google lanza Veo 2: una revolución en la creación de vídeos con IA

Implante cerebral: La nueva frontera entre pensamiento y palabra

Recent Comments

DE OPINION

Empresa envía a teletrabajar por un día a 400 de sus empleados… Solo fue una excusa para despedirlos

Parte importante de la generación Alpha carece de habilidades básicas en el uso de computadoras

¿Qué ha pasado con El Rincón del Vago?

HUMOR

La historia del chatbot que funcionaba tan mal que fue «despedido»

Fotos que nunca deberías subir a tus redes sociales

Con esta web puedes trollear a tus compañeros de trabajo haciéndoles creer que se está actualizando su sistema operativo.

CATEGORIAS POPULARES