Google nos presenta en su blog a Translatotron, su nuevo modelo integral de traducción de voz a voz. Que la compañía lleva años perfeccionando sus modelos de traducción no es algo nuevo, pero que estos modelos sean capaces de imitar la voz de las personas, sí.
La traducción es uno de los servicios en donde Google ha sido capaz de probar distintos modelos de inteligencia artificial. El más reciente tiene que ver con la traducción voz-a-voz sin necesidad de utilizar texto de por medio.
Google apunta a que el principal objetivo de esto es ayudar a las personas que hablan distintos idiomas a comunicarse entre sí. Para lograr este nuevo sistema de voz a voz, proponen un modelo único de secuencia a secuencia, que se aleja de los sistemas en cascada y mejora, según Google, la velocidad, errores de composición y la propia traducción.
Conocido como Translatotron, el sistema es el primero en su tipo y utiliza un modelo de extremo a extremo que no depende del uso de texto. Este enfoque es más preciso que el modelo de cascada, que involucra el reconocimiento de voz para capturar el texto, traducirlo y convertirlo a voz nuevamente.
Translatotron está basado en una red de secuencia a secuencia que captura la voz y la procesa como un espectrograma, que cosiste en una representación visual del espectro de frecuencias. El modelo genera espectrogramas del contenido traducido en el lenguaje de destino con la posibilidad de generar una voz similar a la origina
Imitando acentos y pronunciación
Google nos cuenta que Translalotron se basa en un modelo de extremo a extremo, superior a los tradicionales sistemas en cascada. Con esto, pretenden demostrar que se puede traducir el habla de un idioma a otro sin necesidad de que haya una representación intermedia de texto en ninguno de los dos idiomas, algo que sí requieren los sistemas en cascada.
La nueva herramienta de Google toma los espectrogramas de origen y genera directamente otros espectrogramas con el contenido traducido al idioma deseado. Para ello, se vale de un Vocoder neural, encargado de darle la forma deseada a las ondas del espectrograma de salida. Asimismo, utilizan un codificador capaz de preservar las características de la voz que se registra.
La principal novedad de Translatotron es que no funciona en cascada, y que añade elementos como un codificador capaz de retener las características del habla de la voz registrada
A la hora de entrenar a Translatotron, Google utiliza un objetivo multitarea en el que se busca predecir las transcripciones de origen y destino, mientras que, de forma simultánea, se generan los espectogramas finales.
En resumidas cuentas, Google registra la voz del interlocutor, logra preservar las características de su habla, y logra generar un espectrograma de salida traducido al idioma objetivo, manteniendo dichas características del habla.
Emulando el lenguaje natural
Crear modelos de voz naturales lleva tiempo siendo una obsesión de Google. Hemos podido verlo en la forma de hablar que tiene Google Assistant. Esta es principalmente la diferencia que buscan con el resto de asistentes y modelos, la naturalidad.
La propia Google admite que sus resultados quedan por debajo de los sistemas tradicionales de cascada, pero demuestran la viabilidad de los sistemas de voz de extremo a extremo, que era su objetivo principal.
En primer lugar, nos muestran cómo funciona Translatotron bajo un modelo en cascada. Tenemos un input en español, una traducción de referencia, y la propia traducción de salida. Si escuchamos la traducción del modelo en cascada, nos encontramos ante el típico lenguaje trabado y secuencial de los antiguos asistentes.
Modelo en cascada
1 . Entrada
2 . Traducción de referencia
3 . Traducción de línea base en cascada
4 . Traducción de Translatotron
Posteriormente muestran cómo rinde Translatotron bajo un modelo de extremo a extremo. Destacan el trabajo del antes mencionado codificador, que logra conservar las características del habla a la hora de registrar la entrada de voz.
Modelo de extremo a extremo
Entrada
Traducción de referencia
3 . Traducción de línea de base en cascada
4 . Traducción de Translatotrón (voz canónica)
5 . Traducción de Translatotrón (voz original del interlocutor)
Mas ejemplos de audio disponibles aquí
En definitiva, Google trata de poner sobre la mesa su modelo de traducción por voz de extremo a extremo, destacando que son capaces de preservar las características del habla natural, punto clave para que los asistentes y traductores funcionen de forma «mas humana». Con esto, buscan crear un buen punto de partida par futuras investigaciones y desarrollos de sistema de traducción de voz.