demasiados modelos

¿Cuántos modelos de IA son demasiados? Depende de cómo se mire, pero 10 por semana probablemente sea demasiado. Eso es aproximadamente cuántos hemos visto implementarse en los últimos días, y es cada vez más difícil decir si estos modelos se comparan entre sí y cómo, si es que alguna vez fue posible para empezar. ¿Entonces cuál es el punto?

Estamos en un momento extraño en la evolución de la IA, aunque, por supuesto, ha sido bastante extraño todo el tiempo. Estamos viendo una proliferación de modelos grandes y pequeños, desde desarrolladores especializados hasta grandes y bien financiados.

Repasemos la lista de esta semana, ¿de acuerdo? He tratado de condensar lo que distingue a cada modelo.

  • LLaMa-3: El último modelo emblemático de lenguaje grande “abierto” de Meta. (El término “abierto” está en disputa en este momento, pero de todos modos este proyecto es ampliamente utilizado por la comunidad).
  • Mistral 8×22: Un modelo de “mezcla de expertos”, en términos generales, de un equipo francés que ha rehuido la apertura que alguna vez abrazaron.
  • Difusión estable 3 Turbo: Un SD3 actualizado para combinar con la nueva API de estabilidad abierta. Tomar prestado “turbo” de la nomenclatura de modelos de OpenAI es un poco extraño, pero está bien.
  • Asistente de IA de Adobe Acrobat: “Habla con tus documentos” del gorila de documentos de 800 libras. Estoy bastante seguro de que esto es principalmente un Sin embargo, envoltorio para ChatGPT..
  • Núcleo dulce: De un pequeño equipo anteriormente empleado por Big AI, un modelo multimodal creado desde cero que es al menos nominalmente competitivo con los grandes.
  • Idéficas2: Un modelo multimodal más abierto, construido sobre modelos recientes y más pequeños de Mistral y Google.
  • OLMo-1.7-7B: Una versión más grande del LLM de AI2, una de las más abiertas que existen, y un trampolín hacia un futuro modelo a escala 70B.
  • Pila-T5: Una versión del viejo confiable T5 modelo ajustado en la base de datos de código The Pile. El mismo T5 que conoces y amas, pero con mejor codificación.
  • Brújula coherente: Un “modelo de incrustación” (si aún no lo sabes, no te preocupes) enfocado en incorporar múltiples tipos de datos para cubrir más casos de uso.
  • imagina flash: El modelo de generación de imágenes más nuevo de Meta, que se basa en un nuevo método de destilación para acelerar la difusión sin comprometer demasiado la calidad.
  • Sin límites: “Una IA personalizada impulsada por lo que has visto, dicho u oído. IEs una aplicación web, una aplicación para Mac, una aplicación para Windows y un dispositivo portátil”. 😬

Son 11, porque se anunció uno mientras escribía esto. ¡Y estos no son todos los modelos lanzados o anticipados esta semana! Son solo los que vimos y discutimos. Si flexibilizáramos un poco las condiciones de inclusión, habría decenas: algunos modelos existentes afinados, algunos combos como Idefics 2, algunos experimentales o de nicho, etcétera. Sin mencionar las nuevas herramientas de esta semana para construir (melodía de antorcha) y luchando contra (Esmalte 2.0) IA generativa!

¿Qué vamos a hacer con esta avalancha interminable? No podemos “revisarlos” todos. Entonces, ¿cómo podemos ayudarles a ustedes, nuestros lectores, a comprender y mantenerse al día con todas estas cosas?

La verdad es que no es necesario seguir el ritmo. Algunos modelos como ChatGPT y Gemini han evolucionado hasta convertirse en plataformas web completas, que abarcan múltiples casos de uso y puntos de acceso. Otros grandes modelos de lenguaje como LLaMa u OLMo, aunque técnicamente comparten una arquitectura básica, en realidad no cumplen la misma función. Están destinados a vivir en segundo plano como un servicio o componente, no en primer plano como una marca.

Existe cierta confusión deliberada sobre estas dos cosas, porque los desarrolladores de los modelos quieren tomar prestada un poco de la fanfarria asociada con los principales lanzamientos de plataformas de IA, como su GPT-4V o Gemini Ultra. Todo el mundo quiere que pienses que su liberación es importante. Y aunque probablemente sea importante para alguien, es casi seguro que ese alguien no seas tú.

Piénselo en el sentido de otra categoría amplia y diversa como la de los automóviles. Cuando se inventaron por primera vez, simplemente comprabas “un coche”. Luego, un poco más tarde, podías elegir entre un coche grande, un coche pequeño y un tractor. Hoy en día, se lanzan cientos de coches cada año, pero probablemente no necesites estar al tanto de uno de cada diez de ellos, porque nueve de cada diez no son el coche que necesitas o ni siquiera un coche tal como entiendes el término. De manera similar, estamos pasando de la era de la IA grande/pequeña/tractora hacia la era de la proliferación, e incluso los especialistas en IA no pueden mantenerse al día y probar todos los modelos que están surgiendo.

La otra cara de la historia es que ya estábamos en esta etapa mucho antes de que aparecieran ChatGPT y los otros grandes modelos. Mucha menos gente leía sobre esto hace 7 u 8 años, pero lo cubrimos de todos modos porque era claramente una tecnología esperando su momento decisivo. Constantemente se publicaban artículos, modelos e investigaciones, y conferencias como SIGGRAPH y NeurIPS estaban llenas de ingenieros de aprendizaje automático que comparaban notas y aprovechaban el trabajo de los demás. ¡Aquí hay una historia de comprensión visual que escribí en 2011!

Esa actividad sigue en marcha todos los días. Pero debido a que la IA se ha convertido en un gran negocio (posiblemente el mayor en tecnología en este momento), estos desarrollos han recibido un poco de peso adicional, ya que la gente siente curiosidad por saber si uno de estos podría representar un salto tan grande sobre ChatGPT como lo fue ChatGPT sobre sus predecesores.

La simple verdad es que ninguno de estos modelos será un gran paso, ya que el avance de OpenAI se basó en un cambio fundamental en la arquitectura de aprendizaje automático que todas las demás empresas han adoptado y que no ha sido reemplazada. Mejoras incrementales como un punto o dos mejores en un punto de referencia sintético, o un lenguaje o imágenes ligeramente más convincentes, es todo lo que podemos esperar por el momento.

¿Eso significa que ninguno de estos modelos importa? Ciertamente lo hacen. No se pasa de la versión 2.0 a la 3.0 sin 2.1, 2.2, 2.2.1, etc. Y a veces esos avances son significativos, abordan deficiencias graves o exponen vulnerabilidades inesperadas. Intentamos cubrir los interesantes, pero eso es sólo una fracción del número total. De hecho, ahora estamos trabajando en una pieza que recopila todos los modelos que creemos que los curiosos de ML deberían conocer, y son del orden de una docena.

No te preocupes: cuando aparezca uno importante, lo sabrás, y no solo porque TechCrunch lo esté cubriendo. Será tan obvio para usted como lo es para nosotros.



Fuente