En los últimos 10 años, Google translate ha crecido desde traducir unas pocas lenguas a 103 en total, traduciendo la asombrosa cifra de 140 mil millones de palabras cada día.
Para mantener esta maquinaria, Google ha creado diversos sistemas que permitan la traducción entre dos lenguas cualquiera, lo que implica un elevado coste computacional.
Google Translate ha tenido grandes cambios últimamente. Ahora la herramienta ha obtenido 24 nuevos idiomas, y lo ha hecho de una manera muy peculiar.
Hasta 2016, Google Translate empleaba una traducción basada en frases, la misma que realizaría cualquier persona al utilizar un diccionario tradicional. Para salir del paso era suficiente, pero los resultados eran bastante crudos y no realizaba una comprensión de las estructuras lingüísticas, lo que resulta en una traducción no correcta.
Este enfoque está limitado también por el alcance del vocabulario disponible. La traducción basada en frases no tiene la opción de realizar conjeturas basadas en palabras que no reconoce y no puede aprender de nuevos aportes.
Ahora Google ha utilizado su modelo de machine learning Zero-Shot, el cual ha aprendido los idiomas sin haber visto un ejemplo antes. Si bien desde la compañía reconocen que no es perfecto, la técnica empleada ha sido todo un hito para Google Translate.
Traducción Zero-Shot
Para entender bien lo que está pasando, hay que entender la capacidad de la traducción zero-shot.
En un artículo publicado por Mike Schuster, Nikhil Thorat y Melvin Johnson en el blog oficial, se explica. “Digamos que entrenamos un sistema multilingüe con ejemplos japonés-inglés y coreano-inglés. Nuestro sistema multilingüe, con el mismo tamaño que un único sistema GNMT, comparte sus parámetros para traducir entre estas cuatro parejas (cada ejemplo va en ambas direcciones) de idiomas. Este intercambio permite al sistema transferir el “conocimiento de la traducción” de una pareja de idiomas a los otros. Este aprendizaje de transferencia y la necesidad de traducir entre múltiples lenguajes obligan al sistema a utilizar mejor su poder de modelado».

Esto forzó a que se preguntaran si el sistema era capaz de traducir entre un par de idiomas que el sistema no había visto anteriormente. Por ejemplo, traducir entre coreano y japonés en el caso en el cual no se mostrarán ejemplos coreanos-japoneses al sistema. Para nuestra sorpresa, la respuesta fue sí. Puede generar traducciones coreano-japonesas razonables, aunque nunca se le haya enseñado a hacerlo.”
Una IA que traduce sin haber estudiado el idioma antes
La firma lo ha anunciado a través de una nueva entrada en su blog oficial. En ella han especificado los idiomas, los cuales suman ya un total de 133. Según Google, estos nuevos idiomas son hablados por más de 300 millones de personas en todo el mundo. El lingala, por ejemplo, es hablado por más de 45 millones de personas en África central. También se han incluido los idiomas indígenas como el quechua, guaraní o aimara de las Américas, entre otros.
Entre los idiomas añadidos también se encuentra el sánscrito, una antigua lengua de la india que, según Google, la hablan apenas 20.000 personas en todo el mundo. El hecho de que se añadan este tipo de lenguas clásicas ayudará en gran medida a traducir textos y escrituras de cientos o miles de años atrás.
Muchos de ellos son hablados en las regiones del norte de la India, Sudamérica, Maldivas, Sudáfrica, y más. Podéis ver la lista completa de idiomas en la web proporcionada por Google.

Lo realmente interesante de estos idiomas agregados es la utilización de Zero-Shot, una IA que no ha necesitado entrenarse en los idiomas descritos para añadirlos al completo en el Traductor de Google. Este modelo de machine learning sólo está siendo entrenado mediante texto monolingüe. La traducción no es perfecta, avisan desde la compañía, pero trabajarán para asegurar una traducción al nivel de la que existe actualmente para los idiomas más comunes.
gracias a este desarrollo de la IA de Google, las traducciones realizadas con Google Translate son mucho mejores que las que se realizaban hace algunos meses y con una arquitectura productiva mucho más sencilla y veloz.