Lyra es un códec de voz de alta calidad y baja tasa de bits que hace que la comunicación de voz esté disponible incluso en las redes más lentas. Para hacer esto, aplica técnicas de códec tradicionales mientras aprovecha los avances en el aprendizaje automático (ML) con modelos entrenados en miles de horas de datos para crear un método novedoso para comprimir y transmitir señales de voz.
Para convertirlo en un códec universal, Google ha decidido compartir el código fuente en la plataforma GitHub en versión beta y bajo licencia Apache 2.0. La idea de esta estrategia es que los propios desarrolladores lo empiecen a implementar en sus propias aplicaciones de comunicaciones.
Buscando la universalidad del códec
Todo el código de Lyra es de código abierto bajo la licencia de Apache, excepto un kernel matemático, para el cual se proporciona una biblioteca compartida hasta que se pueda implementar una solución completamente abierta en más plataformas.
En cualquier caso, se ofrecen las herramientas necesarias, aunque por ahora centradas en la plataforma de Android ARM de 64 bits, con desarrollo en Linux, prometiendo que llegarán a expandir el soporte para otras plataformas junto con mejoras y la ampliación de la base de código.
El nuevo códec de audio de Google utiliza el aprendizaje automático para la reconstrucción de las conversaciones por voz.
La intención que busca Google es que se produzcan llamadas de alta calidad incluso en redes móviles lentas, ya no sólo en los países en vías de desarrollo, sino también en aquellos territorios donde el aumento exponencial de la demanda haya podido congestionar las redes móviles, como observan con el aumento del teletrabajo y de otras actividades en línea como consecuencia de las fases de confinamiento.
Arquitectura Lyra
La arquitectura básica del códec Lyra es bastante simple. Las características se extraen del habla cada 40 ms y luego se comprimen para su transmisión a una tasa de bits de 3 kbps. Las características en sí mismas son espectrogramas log mel, una lista de números que representan la energía del habla en diferentes bandas de frecuencia, que tradicionalmente se han utilizado por su relevancia perceptiva porque están modelados a partir de la respuesta auditiva humana. Por otro lado, un modelo generativo utiliza esas características para recrear la señal de voz.
Lyra aprovecha el poder de los nuevos modelos generativos de sonido natural para mantener la baja tasa de bits de los códecs paramétricos mientras logra una alta calidad, a la par con los códecs de forma de onda de última generación que se utilizan en la mayoría de las plataformas de transmisión y comunicación en la actualidad.
La complejidad computacional se reduce mediante el uso de un modelo generativo recurrente más económico, una variación WaveRNN, que funciona a una tasa más baja, pero genera en paralelo múltiples señales en diferentes rangos de frecuencia que luego combina en una sola señal de salida a la frecuencia de muestreo deseada. Este truco, más las optimizaciones ARM de 64 bits, permite que Lyra no solo se ejecute en servidores en la nube, sino también en el dispositivo en teléfonos de gama media, como los teléfonos Pixel, en tiempo real (con una latencia de procesamiento de 90 ms). Este modelo generativo se entrena luego en miles de horas de datos de voz con hablantes en más de 70 idiomas y se optimiza para recrear con precisión el audio de entrada.
Acorde a Google
Si bien Lyra comprime el audio sin procesar hasta 3 kbps para obtener una calidad que se compara favorablemente con otros códecs, como Opus, no pretende ser una alternativa completa, pero puede ahorrar un ancho de banda significativo en este tipo de escenarios
La compañía ya se muestra ansiosa por ver las implementaciones que comenzarán a realizarse por parte de los desarrolladores gracias a la disponibilidad del código fuente del revolucionario códec de audio, que aportará calidad de las llamadas independientemente de las condiciones en las que se produzcan.