El nuevo modelo de IA de AI21 Labs puede manejar más contexto que la mayoría

Cada vez más, la industria de la IA avanza hacia modelos de IA generativa con contextos más largos. Pero los modelos con ventanas de contexto grandes tienden a requerir un uso intensivo de computación. O Dagan, líder de producto de la startup de IA AI21 Labs, afirma que este no tiene por qué ser el caso, y su empresa está lanzando un modelo generativo para demostrarlo.

Los contextos, o ventanas de contexto, se refieren a datos de entrada (por ejemplo, texto) que un modelo considera antes de generar resultados (más texto). Los modelos con ventanas de contexto pequeñas tienden a olvidar el contenido incluso de conversaciones muy recientes, mientras que los modelos con contextos más grandes evitan este problema y, como beneficio adicional, captan mejor el flujo de datos que reciben.

Jamba de AI21 Labs, un nuevo modelo de generación y análisis de texto, puede realizar muchas de las mismas tareas que modelos como ChatGPT de OpenAI y Gemini de Google. Jamba, formado con una combinación de datos públicos y privados, puede escribir texto en inglés, francés, español y portugués.

Jamba puede manejar hasta 140.000 tokens mientras se ejecuta en una sola GPU con al menos 80 GB de memoria (como una Nvidia A100 de gama alta). Eso se traduce en alrededor de 105.000 palabras, o 210 páginas, una novela de tamaño decente.

Llama 2 de Meta, en comparación, tiene una ventana de contexto de 32.000 tokens (un poco más pequeña para los estándares actuales) pero solo requiere una GPU con ~12 GB de memoria para funcionar. (Las ventanas de contexto normalmente se miden en tokens, que son fragmentos de texto sin formato y otros datos).

A primera vista, Jamba no tiene nada especial. Existen un montón de modelos de IA generativa descargables y disponibles gratuitamente, desde el DBRX recientemente lanzado por Databricks hasta el mencionado Llama 2.

Pero lo que hace que Jamba sea único es lo que hay debajo del capó. Utiliza una combinación de dos arquitecturas de modelos: transformadores y modelos de espacio de estados (SSM).

Los transformadores son la arquitectura elegida para tareas de razonamiento complejas, impulsando modelos como GPT-4 y Gemini de Google, por ejemplo. Tienen varias características únicas, pero, con diferencia, la característica que define a los transformadores es su “mecanismo de atención”. Para cada dato de entrada (por ejemplo, una oración), transformadores pesar la relevancia de todas las demás entradas (otras oraciones) y extraer de ellas para generar la salida (una nueva oración).

Los SSM, por otro lado, combinan varias cualidades de tipos más antiguos de modelos de IA, como redes neuronales recurrentes y redes neuronales convolucionales, para crear una arquitectura computacionalmente más eficiente capaz de manejar largas secuencias de datos.

Ahora bien, los MSE tienen sus limitaciones. Pero algunas de las primeras encarnaciones, incluido un modelo de código abierto llamado Mamba de investigadores de Princeton y Carnegie Mellon, pueden manejar entradas más grandes que sus equivalentes basados ​​en transformadores y, al mismo tiempo, superarlos en tareas de generación de lenguaje.

De hecho, Jamba utiliza Mamba como parte del modelo central, y Dagan afirma que ofrece tres veces más rendimiento en contextos largos en comparación con los modelos basados ​​en transformadores de tamaños comparables.

“Si bien hay algunos ejemplos académicos iniciales de modelos SSM, este es el primer modelo a escala de producción de grado comercial”, dijo Dagan en una entrevista con TechCrunch. “Esta arquitectura, además de ser innovadora e interesante para futuras investigaciones por parte de la comunidad, abre grandes posibilidades de eficiencia y rendimiento”.

Ahora, si bien Jamba se lanzó bajo la licencia Apache 2.0, una licencia de código abierto con relativamente pocas restricciones de uso, Dagan enfatiza que es una versión de investigación que no está destinada a ser utilizada comercialmente. El modelo no tiene salvaguardas para evitar que genere texto tóxico ni mitigaciones para abordar posibles sesgos; En las próximas semanas estará disponible una versión mejorada y aparentemente “más segura”.

Pero Dagan afirma que Jamba demuestra la promesa de la arquitectura SSM incluso en esta etapa temprana.

“El valor añadido de este modelo, tanto por su tamaño como por su arquitectura innovadora, es que puede instalarse fácilmente en una sola GPU”, afirmó. “Creemos que el rendimiento mejorará aún más a medida que Mamba realice ajustes adicionales”.

Fuente