OpenAI es una compañía de investigación ha hecho un gran aporte en el campo de las inteligencias artificiales, ya que ha anunciado la creación de dos IA’s de inteligencia multimodal las cuales son DALL-E y CLIP con el fin de tener una mejor asociación entre conceptos visuales y textuales a partir de miles de millones de parámetros GPT-3.
Estas IA’s aprovechan la potencia del modelo de lenguaje presentado durante 2020 y que sorprendió a muchos, conocido como el GPT-3 que es capaz de generar diseños, conversar, debatir o programar.
DALL-E tiene la capacidad de generar imágenes con una descripción en texto. Mientras que CLIP tiene la capacidad de reconocer visualmente las imágenes y categorizarlas de manera instantánea.
Como prueba se le pidió una colección de lentes estando sobre una mesa, cumpliendo su función creo varias imágenes con una colección de lentes estando sobre una mesa.

Lo atractivo de todo esto es que DALL-E tiene la capacidad de generar imágenes de conceptos que existen y también de los que no existen, aunque las imágenes no tengan la calidad de una fotografía real. Sin embargo, en objetos simples y bien definidos la calidad puede llegar a ser asombrosa.
Por otro lado, CLIP tiene como propósito el realizar un proceso diferente, ya que es capaz de reconocer al instante a que categorías pertenecen las imágenes que se le muestren, puede dar una imagen para que la describa mejor; reconoce objetos, caracteres, localizaciones, actividades, sujetos, etc. Lo único que no entiende muy bien es cuando se le muestra una imagen satelital o un lince en un campo.
El campo de las inteligencias artificiales está creciendo a pasos agigantados, sin duda alguna tanto DALL-E como CLIP son un gran aporte para la tecnología, así como para la sociedad en conjunto. Esto también nos puede ser de gran utilidad en distintos campos o situaciones que se presenten en nuestra vida cotidiana.
Fuente: OpenAI Multimodal Research