Google libera el código fuente de Lyra, su códec de voz de alta calidad

8 abril, 2021

1485

Lyra es un códec de voz de alta calidad y baja tasa de bits que hace que la comunicación de voz esté disponible incluso en las redes más lentas. Para hacer esto, aplica técnicas de códec tradicionales mientras aprovecha los avances en el aprendizaje automático (ML) con modelos entrenados en miles de horas de datos para crear un método novedoso para comprimir y transmitir señales de voz.

Para convertirlo en un códec universal, Google ha decidido compartir el código fuente en la plataforma GitHub en versión beta y bajo licencia Apache 2.0. La idea de esta estrategia es que los propios desarrolladores lo empiecen a implementar en sus propias aplicaciones de comunicaciones.

Buscando la universalidad del códec

Todo el código de Lyra es de código abierto bajo la licencia de Apache, excepto un kernel matemático, para el cual se proporciona una biblioteca compartida hasta que se pueda implementar una solución completamente abierta en más plataformas.

En cualquier caso, se ofrecen las herramientas necesarias, aunque por ahora centradas en la plataforma de Android ARM de 64 bits, con desarrollo en Linux, prometiendo que llegarán a expandir el soporte para otras plataformas junto con mejoras y la ampliación de la base de código.

El nuevo códec de audio de Google utiliza el aprendizaje automático para la reconstrucción de las conversaciones por voz.

La intención que busca Google es que se produzcan llamadas de alta calidad incluso en redes móviles lentas, ya no sólo en los países en vías de desarrollo, sino también en aquellos territorios donde el aumento exponencial de la demanda haya podido congestionar las redes móviles, como observan con el aumento del teletrabajo y de otras actividades en línea como consecuencia de las fases de confinamiento.

Arquitectura Lyra

La arquitectura básica del códec Lyra es bastante simple. Las características se extraen del habla cada 40 ms y luego se comprimen para su transmisión a una tasa de bits de 3 kbps. Las características en sí mismas son espectrogramas log mel, una lista de números que representan la energía del habla en diferentes bandas de frecuencia, que tradicionalmente se han utilizado por su relevancia perceptiva porque están modelados a partir de la respuesta auditiva humana. Por otro lado, un modelo generativo utiliza esas características para recrear la señal de voz.

Lyra aprovecha el poder de los nuevos modelos generativos de sonido natural para mantener la baja tasa de bits de los códecs paramétricos mientras logra una alta calidad, a la par con los códecs de forma de onda de última generación que se utilizan en la mayoría de las plataformas de transmisión y comunicación en la actualidad.

Google libera el código fuente de Lyra, su códec de voz de alta calidad- Azul Web

La complejidad computacional se reduce mediante el uso de un modelo generativo recurrente más económico, una variación WaveRNN, que funciona a una tasa más baja, pero genera en paralelo múltiples señales en diferentes rangos de frecuencia que luego combina en una sola señal de salida a la frecuencia de muestreo deseada. Este truco, más las optimizaciones ARM de 64 bits, permite que Lyra no solo se ejecute en servidores en la nube, sino también en el dispositivo en teléfonos de gama media, como los teléfonos Pixel, en tiempo real (con una latencia de procesamiento de 90 ms). Este modelo generativo se entrena luego en miles de horas de datos de voz con hablantes en más de 70 idiomas y se optimiza para recrear con precisión el audio de entrada.

Acorde a Google

Si bien Lyra comprime el audio sin procesar hasta 3 kbps para obtener una calidad que se compara favorablemente con otros códecs, como Opus, no pretende ser una alternativa completa, pero puede ahorrar un ancho de banda significativo en este tipo de escenarios

La compañía ya se muestra ansiosa por ver las implementaciones que comenzarán a realizarse por parte de los desarrolladores gracias a la disponibilidad del código fuente del revolucionario códec de audio, que aportará calidad de las llamadas independientemente de las condiciones en las que se produzcan.

Google, Github

Artículo anterior

Los Patrones Oscuros y las formas en como la web y apps te hacen decir «Sí» cuando quieres decir «No»

Artículo siguiente

Ahora le toco a LinkedIn, 500 millones de usuarios filtrados y a la venta

Google libera el código fuente de Lyra, su códec de voz de alta calidad

Buscando la universalidad del códec

Arquitectura Lyra

Acorde a Google

Google lanza Veo 2: una revolución en la creación de vídeos con IA

Google y la IA: ¿Un paso más hacia la pérdida de privacidad?

Google Willow: El Chip Cuántico que Redefine la Computación

Most Popular

Windows XP: De la admiración al caos tecnológico

Kevin Weil y el futuro de la programación: ¿dejarán atrás a los humanos?

Google lanza Veo 2: una revolución en la creación de vídeos con IA

Implante cerebral: La nueva frontera entre pensamiento y palabra

Recent Comments

DE OPINION

Empresa envía a teletrabajar por un día a 400 de sus empleados… Solo fue una excusa para despedirlos

Parte importante de la generación Alpha carece de habilidades básicas en el uso de computadoras

¿Qué ha pasado con El Rincón del Vago?

HUMOR

La historia del chatbot que funcionaba tan mal que fue «despedido»

Fotos que nunca deberías subir a tus redes sociales

Con esta web puedes trollear a tus compañeros de trabajo haciéndoles creer que se está actualizando su sistema operativo.

CATEGORIAS POPULARES