Bien sabemos que las fotografías se hacen con la ayuda de la luz, pero que pasaría ¿si se pudieran hacer con el sonido de sus voces? Investigadores de IA han estado trabajando en la reconstrucción del rostro de una persona utilizando solo una breve grabación de audio de esa persona, y los resultados son impresionantes.
Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT publicaron por primera vez sobre un algoritmo de IA llamado Speech2Face en un artículo en 2019.
“¿Cuánto podemos inferir sobre la apariencia de una persona por la forma en que habla?” dice el resumen. “Estudiamos la tarea de reconstruir una imagen facial de una persona a partir de una breve grabación de audio de esa persona hablando”.
Una IA con resultados asombrosos
Los investigadores primero diseñaron y entrenaron una red neuronal profunda utilizando millones de videos de YouTube e Internet que mostraban a personas hablando. Durante este entrenamiento, la IA aprendió las correlaciones entre el sonido de las voces y el aspecto del hablante. Estas correlaciones le permitieron hacer las mejores conjeturas en cuanto a la edad, el género y el origen étnico del hablante.
No hubo participación humana en el proceso de capacitación, ya que los investigadores no necesitaron etiquetar manualmente ningún subconjunto de datos: la IA simplemente recibió una gran cantidad de videos y se le encargó descubrir las correlaciones entre las características de la voz y las características faciales.
Una vez entrenada, la IA fue notablemente buena para crear retratos basados solo en grabaciones de voz que se parecían a la apariencia real del orador.
Para analizar más a fondo la precisión de las reconstrucciones faciales, los investigadores construyeron un “decodificador facial” que crea una reconstrucción estandarizada de la cara de una persona a partir de un cuadro fijo mientras ignora las “variaciones irrelevantes” como la pose y la iluminación. Esto permitió a los científicos comparar más fácilmente las reconstrucciones de voz con las características reales del hablante.
Una vez más, los resultados de la IA se acercaron sorprendentemente a los rostros reales en un gran porcentaje de casos.
Debilidades y problemas éticos
Hubo algunos casos en los que la IA tuvo dificultades para descubrir cómo se vería el hablante. Factores como el acento, el idioma hablado y el tono de la voz fueron cosas que causaron “discrepancias entre el habla y la cara” en las que el género, la edad o el origen étnico eran incorrectos.
Las personas con voz alta (incluidos los niños más pequeños) a menudo se identificaron como mujeres, mientras que las personas con voz baja se etiquetaron como hombres. Un hombre asiático hablando inglés resultó en una apariencia menos asiática que cuando hablaba chino.
“De alguna manera, entonces, el sistema es un poco como tu tío racista”, escribe el fotógrafo Thomas Smith. “Parece que siempre puede decir la raza o el origen étnico de una persona en función de cómo suena, pero a menudo está mal”.
Los investigadores notan que existen consideraciones éticas en torno a este proyecto.
“Nuestro modelo está diseñado para revelar las correlaciones estadísticas que existen entre los rasgos faciales y las voces de los hablantes en los datos de entrenamiento”, escriben en la página del proyecto. “Los datos de capacitación que utilizamos son una colección de videos educativos de YouTube y no representan por igual a toda la población mundial. Por lo tanto, el modelo, como es el caso con cualquier modelo de aprendizaje automático, se ve afectado por esta distribución desigual de datos”.
“[…] Nosotros recomendamos que cualquier investigación adicional o uso práctico de esta tecnología se pruebe cuidadosamente para garantizar que los datos de capacitación sean representativos de la población de usuarios previstos. Si ese no es el caso, se deben recopilar datos más representativos en general”.
Aplicaciones del mundo real
Una posible aplicación en el mundo real de esta IA podría ser crear una representación de dibujos animados de una persona en una llamada telefónica o de videoconferencia cuando se desconoce la identidad de la persona y no desea compartir su rostro real.
“Nuestros rostros reconstruidos también se pueden usar directamente para asignar rostros a voces generadas por máquinas que se usan en dispositivos domésticos y asistentes virtuales”, escriben los investigadores.
Presumiblemente, las fuerzas del orden también podrían usar la IA para crear un retrato que muestre el aspecto probable de un sospechoso si la única evidencia es una grabación de voz. Sin embargo, las aplicaciones gubernamentales sin duda serían objeto de una gran controversia y debate en relación con la privacidad y la ética.
Si bien generar retratos realistas y precisos de personas solo a partir de sus voces es un concepto fascinante y, anteriormente, materia de ciencia ficción, los investigadores no apuntan a ese tipo de tecnología como el objetivo final de este algoritmo de IA.
“Tenga en cuenta que nuestro objetivo no es reconstruir una imagen precisa de la persona, sino recuperar los rasgos físicos característicos que se correlacionan con el discurso de entrada”, afirma el documento. “Hemos demostrado que nuestro método puede predecir rostros plausibles con los atributos faciales consistentes con los de las imágenes reales”.
“Creemos que generar caras, en lugar de predecir atributos específicos, puede proporcionar una visión más completa de las correlaciones de caras de voz y puede abrir nuevas oportunidades de investigación y aplicaciones”.