Microsoft y Nvidia crean un modelo de lenguaje transformador

Vivimos en una época en la que los avances en inteligencia artificial superan con creces la ley de Moore, quien acabó convirtiéndose en una ley no matemática o física, sino en esa singular predicción en donde menciona que cada dos años el número de transistores en un microprocesador se duplica.

Esta ley nos ha demostrado que estamos en un tiempo interconectado que va a la velocidad de la luz. Al mismo tiempo, somos testigos de cómo la hiper escala de los modelos de IA se dirigen a un mejor rendimiento, dando paso a sí mejores innovaciones de software que terminan por traspasar los límites de la optimización y la eficiencia.

Nvidia y el futuro de un modelo de aprendizaje automático
Se entiende que el aprendizaje automático conlleva de un conocimiento de datos y de un entrenamiento que terminan tangibles en un modelo informático.

Sin embargo, cuando se habla del dominio lingüístico, la correlación entre el número de parámetros, la fórmula es distinta y por ende los modelos lingüísticos que tienen estos datos en su interior precisan de una gran cantidad de parámetros, más datos y más tiempo de entrenamiento para así tener una comprensión más rica y matizada del lenguaje. Todo esto con el fin de que el modelo tenga la capacidad no sólo de resumir libros sino de completar un código de programación.

La empresa Microsoft y Nvidia Corporation, a la cual se le conoce por ser una multinacional especializada en el desarrollo de unidades de procesamiento gráfico y tecnologías de circuitos integrados, han decidido unir fuerzas para crear el modelo Megatron-Turing Natural Language Generation (MT-NLG) de DeepSpeed ​​y Megatron, el monolítico más grande y poderoso modelo de lenguaje transformador entrenado hasta la fecha.

​​Se sabe hasta el momento que este modelo es el sucesor de los modelos Turing NLG 17B y Megatron-LM de las empresas MT-NLP. Pero a diferencia de estos, el MT-NLG contiene 530 mil millones de parámetros y logra una precisión perfecta en diversas tareas de lenguaje natural. Entre estas destaca la comprensión de lectura, el razonamiento de sentido común y diferencias del lenguaje natural.


Este modelo MT-NLP incluye 3 veces el número de parámetros en comparación con el modelo más grande existente, GPT-3. NVIDIA y Microsoft mencionaron que para poder lograr tal modelo tuvieron que tener varios entrenamientos con distintos desafíos con la Inteligencia Artificial.

“La calidad y los resultados que hemos logrado hoy son un gran paso en el camino hacia el descubrimiento de la promesa completa de la IA en lenguaje natural. Las innovaciones DeepSpeed ​​y Megatron-LM beneficiarán el desarrollo de modelos de IA existentes y futuros. grandes modelos de IA más baratos y rápidos de entrenar”, escribieron Paresh Kharya de Nvidia y Ali Alvi de Microsoft en una publicación de blog.

Sin embargo, ambas empresas mencionaron que a pesar de que este modelo aún no se encuentra del todo completo, si pueden asegurar que los límites que el día del mañana presentará serán infinitos con ayuda de la IA.

“No podemos esperar a descubrir cómo MT-NLG dará forma a los productos del mañana y motivará a la comunidad a ampliar aún más los límites del procesamiento del lenguaje natural (NLP). El viaje es largo y está lejos de estar completo, pero estamos entusiasmados con lo que es posible y lo que nos espera”, concluyeron Paresh Kharya y Ali Alvi.

Queremos seguir creando cursos gratuitos en nuestro canal de YouTube. Solo te pedimos tu ayuda para crecer más. Suscríbete por favor. (Cursos, talleres y charlas gratis para ti).

Ernesto Mota
Nací en el d.f., sigo siendo defeño, hoy radico en la hermosa ciudad de Cuernavaca, Morelos, soy Ing. en Sistemas computacionales, con un posgrado en Tecnologías de información, Doctorando en ambientes virtuales de aprendizaje y realidad aumentada, Tecnólogo es mi categoría laboral, y mi linea de investigación es la realidad aumentada aplicada a nuevos entornos de aprendizaje.

Últimos artículos

a

Publicasciones relaciodadas