LanceDB, que cuenta con Midjourney como cliente, está creando bases de datos para IA multimodal

Chang She, anteriormente vicepresidente de ingeniería en Tubi y veterano de Cloudera, tiene años de experiencia en la creación de infraestructura y herramientas de datos. Pero cuando ella comenzó a trabajar en el espacio de la IA, rápidamente se topó con problemas con la infraestructura de datos tradicional, problemas que le impidieron poner en producción modelos de IA.

“Los ingenieros de aprendizaje automático y los investigadores de inteligencia artificial a menudo se ven atrapados en una experiencia de desarrollo deficiente”, dijo a TechCrunch en una entrevista. “Las empresas de infraestructura de datos no comprenden realmente el problema de los datos de aprendizaje automático en un nivel fundamental”.

Entonces Chang, uno de los cocreadores de Pandas, la muy popular biblioteca de ciencia de datos de Python, se asoció con el ingeniero de software Lei Xu para lanzar conjuntamente LanzaDB.

LanceDB está construyendo el software de base de datos de código abierto del mismo nombre, LanceDB, que está diseñado para admitir modelos de IA multimodales: modelos que entrenan y generan imágenes, videos y más, además de texto. Con el respaldo de Y Combinator, LanceDB recaudó este mes 8 millones de dólares en una ronda de financiación inicial liderada por CRV, Essence VC y Swift Ventures, lo que eleva el total recaudado a 11 millones de dólares.

“Si la IA multimodal es fundamental para el éxito futuro de su empresa, usted querrá que su costoso equipo de IA se centre en el modelo y en unir la IA con el valor empresarial”, dijo Chang. “Desafortunadamente, hoy en día, los equipos de IA dedican la mayor parte de su tiempo a lidiar con detalles de infraestructura de datos de bajo nivel. LanceDB proporciona la base que los equipos de IA necesitan para que puedan tener la libertad de centrarse en lo que realmente importa para el valor empresarial y llevar productos de IA al mercado mucho más rápido de lo que sería posible de otra manera”.

LanceDB es esencialmente una base de datos vectorial: una base de datos que contiene series de números (“vectores”) que codifican el significado de datos no estructurados (por ejemplo, imágenes, texto, etc.).

Como escribió recientemente mi colega Paul Sawers, las bases de datos vectoriales están pasando por un momento en el que el ciclo de exageración de la IA alcanza su punto máximo. Esto se debe a que son útiles para todo tipo de aplicaciones de IA, desde recomendaciones de contenido en comercio electrónico y plataformas de redes sociales hasta la reducción de alucinaciones.

La competencia de las bases de datos vectoriales es feroz: véanse Qdrant, Vespa, Weaviate, Pinecone y Chroma, por nombrar algunos proveedores (sin contar a los titulares de las grandes tecnologías). Entonces, ¿qué hace que LanceDB sea único? Mejor flexibilidad, rendimiento y escalabilidad, según Chang.

Por un lado, dice Chang, LanceDB, que está construido sobre Flecha apache – funciona con un formato de datos personalizado, Lance Format, que está optimizado para el entrenamiento y análisis de IA multimodal. Lance Format permite a LanceDB manejar hasta miles de millones de vectores y petabytes de texto, imágenes y videos, y permitir a los ingenieros administrar diversas formas de metadatos asociados con esos datos.

“Hasta ahora, nunca ha existido un sistema que pueda unir entrenamiento, exploración, búsqueda y procesamiento de datos a gran escala”, dijo Chang. “Lance Format permite a los investigadores e ingenieros de IA tener una única fuente de verdad y obtener un rendimiento ultrarrápido en todo su proceso de IA. No se trata sólo de almacenar vectores”.

LanceDB gana dinero vendiendo versiones totalmente administradas de su software de código abierto con características adicionales como aceleración de hardware y controles de gobernanza, y el negocio parece ir fuerte. La lista de clientes de la compañía incluye la plataforma de conversión de texto a imagen Midjourney, el chatbot unicornio Character.ai, la startup de vehículos autónomos WeRide y Airtable.

Sin embargo, Chang insistió en que el reciente respaldo de capital riesgo de LanceDB no desviaría su atención del proyecto de código abierto, que, según él, ahora registra alrededor de 600.000 descargas por mes.

“Queríamos crear algo que hiciera 10 veces más fácil para los equipos de IA trabajar con datos multimodales a gran escala”, dijo. “LanceDB ofrece, y seguirá ofreciendo, un conjunto muy rico de integraciones de ecosistemas para minimizar el esfuerzo de adopción”.

Fuente