Diffbot está construyendo el gráfico de conocimiento más grande de la historia aplicando reconocimiento de imágenes y procesamiento de lenguaje natural a miles de millones de páginas web.
En julio, el último modelo de lenguaje de OpenAI , GPT-3 , deslumbró con su capacidad para producir párrafos que parecen haber sido escritos por un humano. Se empezó a mostrar cómo GPT-3 también podía autocompletar código o llenar espacios en blanco en hojas de cálculo.
En un ejemplo, el empleado de Twitter Paul Katsen tuiteó «= GPT3 () … la función de hoja de cálculo para gobernarlos a todos.», en la que GPT-3 llena las columnas por sí mismo, obteniendo datos de los estados de EE. UU.: La población de Michigan es de 10,3 millones, Alaska se convirtió en un estado en 1906 y así sucesivamente.
Excepto que GPT-3 puede ser un poco mentiroso. La población de Michigan nunca ha sido de 10,3 millones, y Alaska se convirtió en estado en 1959.
Los modelos de lenguaje como GPT-3 son imitadores asombrosos , pero tienen poco sentido de lo que realmente están diciendo. «Son realmente buenos para generar historias sobre unicornios», dice Mike Tung, director ejecutivo de Diffbot, la startup de Stanford. «Pero no están capacitados para ser fácticos».
Este es un problema si queremos que las IA sean confiables . Es por eso que Diffbot adopta un enfoque diferente. Está construyendo una IA que lee todas las páginas de toda la web pública, en varios idiomas, y extrae tantos datos como puede de esas páginas.
Al igual que GPT-3, el sistema de Diffbot aprende aspirando grandes cantidades de texto escrito por humanos que se encuentra en línea. Pero en lugar de usar esos datos para entrenar un modelo de lenguaje, Diffbot convierte lo que lee en una serie de factoides de tres partes que relacionan una cosa con otra: sujeto, verbo, objeto.
Al señalar mi biografía , por ejemplo, Diffbot se entera de que Will Douglas Heaven es periodista; Will Douglas Heaven trabaja en MIT Technology Review; MIT Technology Review es una empresa de medios; y así. Cada uno de estos factores se une a miles de millones de otros en una red de datos extensa e interconectada. Esto se conoce como gráfico de conocimiento.
Los gráficos de conocimiento no son nuevos. Han existido durante décadas y fueron un concepto fundamental en las primeras investigaciones de IA. Pero la construcción y el mantenimiento de gráficos de conocimiento se han realizado normalmente a mano, lo cual es difícil. Esto también impidió que Tim Berners-Lee se diera cuenta de lo que llamó la web semántica, que habría incluido información para máquinas y humanos, de modo que los bots pudieran reservar nuestros vuelos, hacer nuestras compras o dar respuestas más inteligentes a preguntas que los motores de búsqueda.
Hace unos años, Google también comenzó a usar gráficos de conocimiento. Busque «Katy Perry» y aparecerá un cuadro junto a los resultados de la búsqueda principal que le indicará que Katy Perry es una cantautora estadounidense con música disponible en YouTube, Spotify y Deezer. Puede ver de un vistazo que está casada con Orlando Bloom, tiene 35 años y vale $ 125 millones, y así sucesivamente. En lugar de brindarle una lista de enlaces a páginas sobre Katy Perry, Google le brinda un conjunto de datos sobre ella extraídos de su gráfico de conocimiento.
Pero Google solo hace esto para sus términos de búsqueda más populares. Diffbot quiere hacerlo para todo. Al automatizar completamente el proceso de construcción, Diffbot ha podido construir lo que puede ser el gráfico de conocimiento más grande de la historia.
Junto con Google y Microsoft, es una de las tres únicas empresas estadounidenses que rastrea toda la web pública. «Definitivamente tiene sentido rastrear la web», dice Victoria Lin, científica investigadora de Salesforce que trabaja en el procesamiento del lenguaje natural y la representación del conocimiento. «De lo contrario, se puede invertir mucho esfuerzo humano en crear una gran base de conocimientos». Heiko Paulheim de la Universidad de Mannheim en Alemania está de acuerdo: «La automatización es la única forma de construir gráficos de conocimiento a gran escala«.
Super surfista
Para recopilar datos, la IA de Diffbot lee la web como lo haría un humano, pero mucho más rápido. Usando una versión supercargada del navegador Chrome, la IA ve los píxeles sin procesar de una página web y usa algoritmos de reconocimiento de imágenes para categorizar la página como uno de los 20 tipos diferentes, incluidos video, imagen, artículo, evento e hilo de discusión. . A continuación, identifica los elementos clave de la página, como el título, el autor, la descripción del producto o el precio, y utiliza la PNL para extraer datos de cualquier texto.
Cada factoide de tres partes se agrega al gráfico de conocimiento. Diffbot extrae datos de páginas escritas en cualquier idioma, lo que significa que puede responder consultas sobre Katy Perry, por ejemplo, utilizando datos extraídos de artículos en chino o árabe, incluso si no contienen el término «Katy Perry».
Navegar por la web como un ser humano permite que la IA vea los mismos hechos que nosotros. También significa que ha tenido que aprender a navegar por la web como nosotros. La IA debe desplazarse hacia abajo, cambiar entre pestañas y hacer clic en las ventanas emergentes. “La IA tiene que jugar en la web como un videojuego solo para experimentar las páginas”, dice Tung.
Diffbot rastrea la web sin parar y reconstruye su gráfico de conocimiento cada cuatro o cinco días. Según Tung, la IA agrega de 100 millones a 150 millones de entidades cada mes a medida que aparecen nuevas personas en línea, se crean empresas y se lanzan productos. Utiliza más algoritmos de aprendizaje automático para fusionar hechos nuevos con viejos, creando nuevas conexiones o sobrescribiendo las desactualizadas. Diffbot tiene que agregar nuevo hardware a su centro de datos a medida que crece el gráfico de conocimiento.
Los investigadores pueden acceder al gráfico de conocimiento de Diffbot de forma gratuita. Pero Diffbot también tiene alrededor de 400 clientes de pago. El motor de búsqueda DuckDuckGo lo usa para generar sus propias cajas similares a Google. Snapchat lo usa para extraer lo más destacado de las páginas de noticias. La popular aplicación de planificación de bodas Zola la usa para ayudar a las personas a hacer listas de bodas, obteniendo imágenes y precios. NASDAQ, que proporciona información sobre el mercado de valores, lo utiliza para la investigación financiera.
Tenis falsos
Adidas y Nike incluso lo utilizan para buscar en la web tenis falsificados. Un motor de búsqueda devolverá una larga lista de sitios que mencionan tenis Nike. Pero Diffbot permite que estas empresas busquen sitios que realmente vendan sus tenis, en lugar de solo hablar de ellos.
Por ahora, estas empresas deben interactuar con Diffbot mediante código. Pero Tung planea agregar una interfaz de lenguaje natural. En última instancia, quiere construir lo que él llama un «sistema universal de respuesta a preguntas fácticas«: una IA que pueda responder casi cualquier cosa que le preguntes, con fuentes que respalden su respuesta.
Tung y Lin coinciden en que este tipo de IA no se puede construir solo con modelos de lenguaje. Pero mejor aún sería combinar las tecnologías, utilizando un modelo de lenguaje como GPT-3 para crear una interfaz similar a la humana para un bot sabelotodo.
Aun así, incluso una IA que tiene los hechos claros no es necesariamente inteligente. «No estamos tratando de definir qué es la inteligencia, ni nada de eso«, dice Tung. «Solo estamos tratando de construir algo útil«.