Tecnología

Meta’s Open Source Llama 3 Is Already Nipping at OpenAI’s Heels

April 25, 2024 9:14 pm

Jerome Pesenti tiene algunas razones para celebrar la decisión de Meta la semana pasada de lanzar Llama 3, un poderoso modelo de lenguaje grande de código abierto que cualquiera puede descargar, ejecutar y desarrollar.

Pesenti solía ser vicepresidente de inteligencia artificial en Meta y dice que a menudo presionó a la empresa para que considerara lanzar su tecnología para que otros la usaran y desarrollaran. Pero su principal motivo para alegrarse es que su nueva startup tendrá acceso a un modelo de IA que, según él, tiene un poder muy cercano al generador de texto líder en la industria GPT-4 de OpenAI, pero considerablemente más barato de ejecutar y más abierto al escrutinio y modificación externos. .

“El lanzamiento del viernes pasado realmente parece un cambio de juego”, dice Pesenti. Su nueva empresa, Chisporrotear, un tutor de IA, utiliza actualmente GPT-4 y otros modelos de IA, tanto cerrados como abiertos, para elaborar conjuntos de problemas y planes de estudio para los estudiantes. Sus ingenieros están evaluando si Llama 3 podría reemplazar al modelo de OpenAI en muchos casos.

La historia de Sizzle puede augurar un cambio más amplio en el equilibrio de poder en la IA. OpenAI cambió el mundo con ChatGPT, desató una ola de inversión en IA y atrajo a más de 2 millones de desarrolladores a sus API en la nube. Pero si los modelos de código abierto resultan competitivos, los desarrolladores y empresarios pueden decidir dejar de pagar para acceder al último modelo de OpenAI o Google y utilizar Llama 3 o uno de los otros modelos de código abierto cada vez más potentes que están apareciendo.

“Va a ser una carrera de caballos interesante”, dice Pesenti sobre la competencia entre modelos abiertos como Llama 3 y cerrados como GPT-4 y Gemini de Google.

El modelo anterior de Meta, Llama 2, ya era influyente, pero la compañía dice que hizo la última versión más poderosa al alimentarla con mayores cantidades de datos de entrenamiento de mayor calidad, con nuevas técnicas desarrolladas para filtrar contenido redundante o confuso y seleccionar el mejor. combinación de conjuntos de datos a utilizar.

Pesenti dice que ejecutar Llama 3 en una plataforma en la nube como Fuegos artificiales.ai cuesta solo una vigésima parte del costo de acceder a GPT-4 a través de una API. Agrega que Llama 3 se puede configurar para responder a consultas extremadamente rápido, una consideración clave para los desarrolladores de empresas como la suya que dependen de modelos de diferentes proveedores. “Es una ecuación entre latencia, costo y precisión”, afirma.

Los modelos abiertos parecen estar cayendo a un ritmo impresionante. Hace un par de semanas, entré en la startup Databricks para presenciar las etapas finales de un esfuerzo por construir DBRX, un modelo de lenguaje creado que fue brevemente el mejor abierto que existe. Esa corona ahora es de Llama 3. Ali Ghodsi, director ejecutivo de Databricks, también describe Llama 3 como “revolucionario” y dice que el modelo más grande “se está acercando a la calidad de GPT 4, que nivela el campo de juego entre los LLM de código abierto y cerrado”.

Llama 3 también muestra el potencial de hacer que los modelos de IA sean más pequeños, para que puedan ejecutarse en hardware menos potente. Meta lanzó dos versiones de su último modelo, una con 70 mil millones de parámetros (una medida de las variables que utiliza para aprender de los datos de entrenamiento) y otra con 8 mil millones. El modelo más pequeño es lo suficientemente compacto como para funcionar en una computadora portátil, pero es notablemente capaz, al menos en las pruebas de WIRED.

Dos días antes del lanzamiento de Meta, Mistraluna empresa francesa de inteligencia artificial fundada por ex alumnos del equipo de Pesenti en Meta, de código abierto Mixtral 8x22B. Tiene 141 mil millones de parámetros pero utiliza sólo 39 mil millones de ellos a la vez, un diseño conocido como mezcla de expertos. Gracias a este truco, el modelo es considerablemente más capaz que algunos modelos mucho más grandes.

Meta no es el único gigante tecnológico que lanza IA de código abierto. Esta semana Microsoft lanzó Phi-3-mini y Apple lanzó AbrirELMdos modelos de lenguaje de uso gratuito, pequeños pero capaces, que pueden ejecutarse en un teléfono inteligente.

Los próximos meses mostrarán si Llama 3 y otros modelos abiertos realmente pueden desplazar a los modelos premium de IA como GPT-4 para algunos desarrolladores. Y está por llegar una IA de código abierto aún más poderosa. La compañía está trabajando en una versión masiva de 400 mil millones de parámetros de Llama 3 que, según el científico jefe de IA, Yann LeCun, debería ser una de las más capaces del mundo.

Por supuesto, toda esta apertura no es puramente altruista. El CEO de Meta, Mark Zuckerberg, dice que está abriendo sus modelos de IA En última instancia, debería beneficiar a la empresa. reduciendo el costo de las tecnologías de las que depende, por ejemplo generando herramientas y servicios compatibles que Meta puede usar por sí mismo. No dijo que también podría ser beneficioso para Meta evitar que OpenAI, Microsoft o Google dominen el campo.

Fuente

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30