La innovación en IA viaja a una velocidad vertiginosa que incide en todas sus áreas, como el aprendizaje multimodal.
La IA no solo apoya a las empresas a operar de manera más eficiente, sino que también genera ideas críticas que las empresas utilizan para su desarrollo. Esto inevitablemente deriva en un crecimiento continuo de dispositivos, que se estima aumenten en mil 800 millones durante los próximos cinco años, según asegura la firma de asesoría tecnológica ABI Research.
La acción de consolidar datos independientes de varios dispositivos de IA en un solo modelo se denomina aprendizaje multimodal. Los sistemas multimodales pueden procesar múltiples conjuntos de datos, utilizando métodos basados en el aprendizaje para generar información más inteligente.
Una frontera emocionante en la IA cognitiva implica la construcción de sistemas que puedan integrar múltiples modalidades y sintetizar el significado del lenguaje, las imágenes, el video, el audio y las fuentes de conocimiento estructurado, como los gráficos de relaciones. Aplicaciones adaptables como IA conversacional; búsqueda de videos e imágenes usando lenguaje; robots y drones autónomos; y los asistentes multimodales de IA requerirán sistemas que puedan interactuar con el mundo utilizando todas las modalidades disponibles y responder adecuadamente dentro de contextos específicos.
En los últimos años, las soluciones de aprendizaje profundo (Deep Learning. DL) se han desempeñado mejor que la línea de base humana en muchos puntos de referencia de procesamiento de lenguaje natural (Natural Languaje Procesing, NLP) (p. ej., SuperGLUE , GLUE , SQuAD ) y puntos de referencia de visión artificial (p. ej., ImageNet ). El progreso en las modalidades individuales es un testimonio de las capacidades similares a la percepción o el reconocimiento logradas por los mapeos estadísticos altamente efectivos aprendidos por las redes neuronales.
Estas tareas de modalidad única se consideraban extremadamente difíciles de abordar hace solo una década, pero actualmente son las principales cargas de trabajo de IA en productos de centros de datos, clientes y perimetrales. Sin embargo, en entornos multimodales, muchos de los conocimientos que podrían obtenerse utilizando métodos automatizados aún no se aprovechan.
Multimodalidad para la IA cognitiva centrada en el ser humano
Las habilidades cognitivas humanas a menudo se asocian con el aprendizaje exitoso de múltiples modalidades. Por ejemplo, el concepto de una manzana debe incluir información obtenida de la visión: cómo se ve normalmente en términos de color, forma, textura, etc. Pero el concepto de una manzana formada por humanos y sistemas avanzados de IA también debe estar informado por lo que el sonido que hace la manzana cuando se la muerde, lo que la gente quiere decir cuando habla de pastel de manzana y el conocimiento integral disponible sobre las manzanas en corpus de texto como Wikipedia o bases de conocimiento estructuradas como Wikidata.

Un sistema de IA multimodal puede ingerir conocimiento de múltiples fuentes y modalidades y utilizarlo para resolver tareas que involucren cualquier modalidad. La información aprendida a través de imágenes y la base de conocimientos debe poder utilizarse para responder una pregunta de lenguaje natural; De manera similar, la información aprendida del texto debe usarse cuando sea necesario en tareas visuales. Todo se conecta a través de conceptos que cruzan todas las modalidades o, como se dice: un perro es un perro es un perro.

El conocimiento del sentido común es inherentemente multimodal.
Los seres humanos poseen mucho conocimiento de sentido común sobre el mundo, como la conciencia de que los pájaros vuelan en el cielo y los automóviles circulan por las carreteras. Dicho conocimiento de sentido común generalmente se adquiere a través de una combinación de señales visuales, lingüísticas y sensoriales en lugar del lenguaje solo. El sentido común fue llamado «la materia oscura de la IA» por Oren Etzioni, director ejecutivo del Instituto Allen de Inteligencia Artificial. Esto se debe a que el sentido común consiste en información implícita : el conjunto amplio (y ampliamente compartido) de suposiciones no escritas y reglas generales que los humanos usan automáticamente para dar sentido al mundo.
Curiosamente, los sistemas multimodales pueden proporcionar una vía para abordar la falta de conocimiento de sentido común en los sistemas de IA. Una forma de mejorar el conocimiento de sentido común de los modelos de lenguaje basados en transformadores como BERT / GPT-3 sería incorporar señales de entrenamiento que abarquen otras modalidades en la arquitectura del modelo. El primer paso para lograr esta capacidad es alinear la representación interna en las diferentes modalidades.
Cuando la IA recibe una imagen y un texto relacionado y procesa ambos, necesita asociar el mismo objeto o concepto entre las modalidades. Por ejemplo, considere un escenario en el que AI ve una imagen de un automóvil con un texto que menciona las ruedas del automóvil. La IA necesita atender a la parte de la imagen con las ruedas del coche cuando atiende a la parte del texto que se refiere a ellas. La IA necesita «saber» que la imagen de las ruedas del automóvil y el texto que menciona las ruedas se refieren al mismo objeto en diferentes modalidades.
¿Cuándo veremos esto?
Los entornos de la vida real son inherentemente multimodales. Esta área de aplicación permite a la comunidad de investigación de IA impulsar aún más la transición de la IA desde el análisis estadístico de una sola modalidad de percepción (como imágenes o texto) a una vista multifacética de los objetos y su interacción, lo que ayuda a avanzar en el viaje desde la ‘forma’ a ‘significado’.
Quizá pasen varios años antes de que los sistemas de aprendizaje profundo o multimodal comiencen a utilizarse. No obstante, algunos se utilizarán más pronto en el mundo real. Google, por ejemplo, ya está realizando pruebas clínicas de su sistema de escaneo ocular en dos hospitales del sur de India. Sin duda, lo mejor está por venir.