Microsoft está abriendo acceso limitado a una inteligencia artificial de texto a voz llamada Voz neuronal personalizada (Custom Neural Voice), que permite a los desarrolladores crear voces sintéticas personalizadas. La tecnología es parte de un servicio de inteligencia artificial de Azure llamado Speech. Las empresas pueden usar la tecnología para cosas como asistentes y dispositivos inteligentes de voz, chatbots, aprendizaje en línea y lectura de audiolibros o noticias. Tendrán que solicitar acceso y obtener la aprobación de Microsoft antes de poder aprovechar Custom Neural Voice.
La tecnología puede ofrecer voces con un sonido más natural que muchos otros servicios de conversión de texto a voz, según Microsoft. Las voces personalizadas utilizan un banco de sonidos o fonemas para crear fuentes de voz. Custom Neural Voice utiliza múltiples redes neuronales en un intento de asegurarse de que la prosodia (el tono y la duración de cada fonema) y la pronunciación sean precisas. Eso ayuda a la IA a imitar correctamente la voz de un actor o usar una voz sintética que suene realista.
Varias empresas ya están utilizando la tecnología, incluidas AT&T y Warner Bros.
Recientemente instalaron un sistema en AT&T Experience Store en Dallas, donde la gente puede interactuar con Bugs Bunny. Usando una combinación de Voz neuronal personalizada, realidad aumentada y 5G, Bugs puede chatear con los clientes en tiempo real y moverse por la tienda para ayudarlos a encontrar una zanahoria dorada oculta.
Eric Bauza, el actor que actualmente da voz a Bugs, grabó más de 2,000 líneas y frases con la ayuda de Microsoft para crear una fuente de voz. Warner Bros. y Microsoft trabajaron juntos para crear una voz personalizada que aproveche la personalidad y las inflexiones del personaje. Duolingo también ha utilizado Custom Neural Voice para crear personajes extravagantes para ayudar a las personas a aprender nuevos idiomas, mientras que Progressive ha desarrollado la tecnología para su chatbot Flo.