Databricks gastó 10 millones de dólares en el nuevo modelo de IA generativa DBRX, pero no puede superar a GPT-4

Databricks gastó 10 millones de dólares en el nuevo modelo de IA generativa DBRX, pero no puede superar a GPT-4

Si quisieras elevar el perfil de tu importante empresa de tecnología y tuvieras 10 millones de dólares para gastar, ¿cómo los gastarías? ¿En un anuncio del Super Bowl? ¿Un patrocinio de F1?

podría gastarlo entrenando un modelo de IA generativa. Si bien no son marketing en el sentido tradicional, los modelos generativos captan la atención y canalizan cada vez más hacia los productos y servicios básicos de los proveedores.

Vea DBRX de Databricks, un nuevo modelo de IA generativa anunciado hoy similar a la serie GPT de OpenAI y Gemini de Google. Disponibles en GitHub y en la plataforma de desarrollo de IA Hugging Face para investigación y uso comercial, las versiones base (DBRX Base) y ajustadas (DBRX Instruct) de DBRX se pueden ejecutar y ajustar con datos públicos, personalizados o de otro modo propietarios.

“DBRX fue capacitado para ser útil y proporcionar información sobre una amplia variedad de temas”, dijo a TechCrunch Naveen Rao, vicepresidente de IA generativa en Databricks, en una entrevista. “DBRX ha sido optimizado y ajustado para el uso del idioma inglés, pero es capaz de conversar y traducir a una amplia variedad de idiomas, como francés, español y alemán”.

Databricks describe DBRX como “código abierto” en una línea similar a los modelos de “código abierto” como Meta’s Llama 2 y los modelos de la startup de IA Mistral. (Es el tema de robusto debate en cuanto a si estos modelos realmente cumplen con la definición de código abierto).

Databricks dice que gastó aproximadamente $10 millones y ocho meses entrenando a DBRX, que afirma (citando un comunicado de prensa) “supera[s] todos los modelos de código abierto existentes en puntos de referencia estándar”.

Pero, y aquí está el problema del marketing, es excepcionalmente difícil usar DBRX a menos que sea cliente de Databricks.

Esto se debe a que, para ejecutar DBRX en la configuración estándar, necesita un servidor o PC con al menos cuatro GPU Nvidia H100. Un solo H100 cuesta miles de dólares, posiblemente más. Esto podría ser un cambio insignificante para la empresa promedio, pero para muchos desarrolladores y emprendedores, está fuera de su alcance.

Y para empezar, hay letra pequeña. Databricks dice que las empresas con más de 700 millones de usuarios activos se enfrentarán a “ciertas restricciones” comparable a Meta’s para Llama 2, y que todos los usuarios deberán aceptar los términos que garanticen que utilizan DBRX “responsablemente”. (Databricks no había ofrecido voluntariamente los detalles específicos de esos términos al momento de la publicación).

Databricks presenta su producto Mosaic AI Foundation Model como la solución administrada para estos obstáculos, que además de ejecutar DBRX y otros modelos proporciona una pila de entrenamiento para ajustar DBRX en datos personalizados. Los clientes pueden alojar DBRX de forma privada utilizando la oferta Model Serving de Databricks, sugirió Rao, o pueden trabajar con Databricks para implementar DBRX en el hardware de su elección.

Rao añadió:

Estamos enfocados en hacer de la plataforma Databricks la mejor opción para la creación de modelos personalizados, por lo que, en última instancia, el beneficio para Databricks es más usuarios en nuestra plataforma. DBRX es una demostración de nuestra plataforma de preentrenamiento y ajuste, la mejor de su clase, que los clientes pueden utilizar para construir sus propios modelos desde cero. Es una manera fácil para que los clientes comiencen a utilizar las herramientas de inteligencia artificial generativa de Databricks Mosaic AI. Y DBRX tiene una gran capacidad desde el primer momento y se puede ajustar para obtener un rendimiento excelente en tareas específicas con una mayor economía que los modelos grandes y cerrados.

Databricks afirma que DBRX se ejecuta hasta 2 veces más rápido que Llama 2, en parte gracias a su arquitectura mixta de expertos (MoE). MoE, que DBRX comparte con Llama 2, los modelos más nuevos de Mistral y el recientemente anunciado Gemini 1.5 Pro de Google, básicamente divide las tareas de procesamiento de datos en múltiples subtareas y luego delega estas subtareas a modelos más pequeños y especializados “expertos”.

La mayoría de los modelos del MoE tienen ocho expertos. DBRX tiene 16, lo que, según Databricks, mejora la calidad.

Sin embargo, la calidad es relativa.

Si bien Databricks afirma que DBRX supera a los modelos Llama 2 y Mistral en ciertos puntos de referencia de comprensión de lenguaje, programación, matemáticas y lógica, DBRX no alcanza posiblemente el modelo líder de IA generativa, GPT-4 de OpenAI, en la mayoría de las áreas fuera de casos de uso especializados como la programación de bases de datos. generación del lenguaje.

Rao admite que DBRX también tiene otras limitaciones, a saber, que, como todos los demás modelos de IA generativa, puede ser víctima de respuestas “alucinantes” a las consultas a pesar del trabajo de Databricks en pruebas de seguridad y formación de equipos rojos. Debido a que el modelo simplemente fue entrenado para asociar palabras o frases con ciertos conceptos, si esas asociaciones no son totalmente precisas, sus respuestas no siempre lo serán.

Además, DBRX no es multimodal, a diferencia de algunos modelos emblemáticos de IA generativa más recientes, incluido Gemini. (Sólo puede procesar y generar texto, no imágenes). Y no sabemos exactamente qué fuentes de datos se utilizaron para entrenarlo; Rao solo revelaría que no se utilizaron datos de clientes de Databricks en el entrenamiento de DBRX.

“Entrenamos a DBRX con un gran conjunto de datos de una amplia gama de fuentes”, añadió. “Utilizamos conjuntos de datos abiertos que la comunidad conoce, ama y utiliza todos los días”.

Le pregunté a Rao si alguno de los conjuntos de datos de entrenamiento de DBRX tenía derechos de autor o licencia, o si mostraba signos obvios de sesgo (por ejemplo, prejuicios raciales), pero no respondió directamente y solo dijo: “Hemos tenido cuidado con los datos utilizados, y realizó ejercicios de equipo rojo para mejorar las debilidades del modelo”. Los modelos de IA generativa tienden a regurgitar datos de entrenamiento, una preocupación importante para los usuarios comerciales de modelos entrenados con datos sin licencia, con derechos de autor o muy claramente sesgados. En el peor de los casos, un usuario podría terminar en problemas éticos y legales por incorporar sin querer trabajo sesgado o que infringe la propiedad intelectual de un modelo en sus proyectos.

Algunas empresas que entrenan y lanzan modelos de IA generativa ofrecen pólizas que cubren los honorarios legales derivados de una posible infracción. Databricks no lo hace en este momento; Rao dice que la compañía está “explorando escenarios” bajo los cuales podría hacerlo.

Teniendo en cuenta este y otros aspectos en los que DBRX no da en el blanco, el modelo parece difícil de vender para cualquiera, excepto para los clientes actuales o potenciales de Databricks. Los rivales de Databricks en IA generativa, incluido OpenAI, ofrecen tecnologías igualmente atractivas, si no más, a precios muy competitivos. Y muchos modelos de IA generativa se acercan más a la definición comúnmente entendida de código abierto que DBRX.

Rao promete que Databricks continuará perfeccionando DBRX y lanzando nuevas versiones mientras el equipo de I+D de Mosaic Labs de la compañía, el equipo detrás de DBRX, investiga nuevas vías de IA generativa.

“DBRX está impulsando el espacio de modelos de código abierto y desafiando que los modelos futuros se construyan de manera aún más eficiente”, dijo. “Lanzaremos variantes a medida que apliquemos técnicas para mejorar la calidad de la producción en términos de confiabilidad, seguridad y sesgo… Vemos el modelo abierto como una plataforma en la que nuestros clientes pueden desarrollar capacidades personalizadas con nuestras herramientas”.

A juzgar por la situación actual de DBRX en relación con sus pares, queda un camino excepcionalmente largo por delante.

Fuente