HomeTecnología

Google entrenó un modelo de lenguaje de inteligencia artificial de billones de parámetros

Google entrenó un modelo de lenguaje de inteligencia artificial de billones de parámetros
Like Tweet Pin it Share Share Email

Los parámetros son la clave de los algoritmos de aprendizaje automático. Son la parte del modelo que se aprende de los datos de entrenamiento históricos. En términos generales, en el dominio del lenguaje, la correlación entre el número de parámetros y la sofisticación se ha mantenido notablemente bien. Por ejemplo, el GPT-3 de OpenAI, uno de los modelos de lenguaje más grandes jamás entrenados, con 175 mil millones de parámetros, puede hacer analogías primitivas, generar recetas e incluso completar el código básico.

En lo que podría ser una de las pruebas más completas de esta correlación hasta la fecha, los investigadores de Google desarrollaron y compararon técnicas que, según afirman, les permitieron entrenar un modelo de lenguaje que contiene más de un billón de parámetros. Dicen que su modelo de 1,6 billones de parámetros, que parece ser el más grande de su tamaño hasta la fecha, logró una aceleración hasta 4 veces mayor que el modelo de lenguaje más grande desarrollado por Google (T5-XXL).

Como señalan los investigadores en un documento que detalla su trabajo, la capacitación a gran escala es un camino efectivo hacia modelos poderosos. Las arquitecturas simples, respaldadas por grandes conjuntos de datos y recuentos de parámetros, superan los algoritmos mucho más complicados. Pero el entrenamiento efectivo a gran escala es extremadamente intensivo en computación. Es por eso que los investigadores buscaron lo que ellos llaman Switch Transformer, una técnica “escasamente activada” que usa solo un subconjunto de los pesos de un modelo, o los parámetros que transforman los datos de entrada dentro del modelo.

El Switch Transformer se basa en una combinación de expertos, un paradigma de modelo de IA propuesto por primera vez a principios de los 90. El concepto aproximado es mantener múltiples expertos, o modelos especializados en diferentes tareas, dentro de un modelo más grande y tener una “red de puertas” para elegir a qué expertos consultar para cualquier dato dado.

La novedad del Switch Transformer es que aprovecha de manera eficiente el hardware diseñado para multiplicaciones de matrices densas, operaciones matemáticas ampliamente utilizadas en modelos de lenguaje, como las GPU y las unidades de procesamiento tensorial (TPU) de Google. En la configuración de entrenamiento distribuido de los investigadores, sus modelos dividieron pesos únicos en diferentes dispositivos, por lo que los pesos aumentaron con la cantidad de dispositivos, pero mantuvieron una memoria manejable y una huella computacional en cada dispositivo.

En un experimento, los investigadores entrenaron previamente varios modelos diferentes de Switch Transformer usando 32 núcleos de TPU en Colossal Clean Crawled Corpus, un conjunto de datos de texto de 750GB extraído de Reddit, Wikipedia y otras fuentes web. Pusieron a los modelos la tarea de predecir las palabras faltantes en pasajes donde el 15% de las palabras habían sido enmascaradas, así como otros desafíos, como recuperar texto para responder una lista de preguntas cada vez más difíciles.

Comments (0)

Deja un comentario

Your email address will not be published. Required fields are marked *