Vana planea permitir a los usuarios alquilar sus datos de Reddit para entrenar IA

en lo generativo Auge de la IA, los datos son el nuevo petróleo. Entonces, ¿por qué no deberías poder vender el tuyo propio?

Desde grandes empresas tecnológicas hasta nuevas empresas, los fabricantes de IA están otorgando licencias de libros electrónicos, imágenes, videos, audio y más a intermediarios de datos, todo con el fin de formar productos impulsados ​​por IA más capaces (y más defendibles legalmente). Shutterstock tiene acuerdos con Meta, Google, Amazon y Apple para suministrar millones de imágenes para el entrenamiento de modelos, mientras que OpenAI ha firmado acuerdos con varias organizaciones de noticias para entrenar sus modelos en archivos de noticias.

En muchos casos, los creadores y propietarios individuales de esos datos no han visto ni un centavo del dinero cambiar de manos. Una startup llamada Viejo quiere cambiar eso.

Anna Kazlauskas y Art Abal, que se conocieron en una clase en el MIT Media Lab centrada en la creación de tecnología para los mercados emergentes, cofundaron Vana en 2021. Antes de Vana, Kazlauskas estudió informática y economía en el MIT y finalmente lo dejó para lanzar una fintech. Startup de automatización, Iambiq, de Y Combinator. Abal, abogado corporativo de formación y educación, fue asociado en The Cadmus Group, una firma consultora con sede en Boston, antes de dirigir el abastecimiento de impacto en la empresa de anotación de datos Appen.

Con Vana, Kazlauskas y Abal se propusieron construir una plataforma que permita a los usuarios “agrupar” sus datos (incluidos chats, grabaciones de voz y fotografías) en conjuntos de datos que luego puedan usarse para el entrenamiento de modelos de IA generativa. También quieren crear experiencias más personalizadas (por ejemplo, mensajes de voz motivadores diarios basados ​​en sus objetivos de bienestar o una aplicación generadora de arte que comprenda sus preferencias de estilo) ajustando los modelos públicos a partir de esos datos.

“La infraestructura de Vana, de hecho, crea un tesoro de datos propiedad del usuario”, dijo Kazlauskas a TechCrunch. “Lo hace permitiendo a los usuarios agregar sus datos personales sin custodia… Vana permite a los usuarios poseer modelos de IA y utilizar sus datos en aplicaciones de IA”.

Así es como Vana presenta su plataforma y API a los desarrolladores:

La API de Vana conecta los datos personales multiplataforma de un usuario… para permitirle personalizar su aplicación. Su aplicación obtiene acceso instantáneo al modelo de IA personalizado de un usuario o a los datos subyacentes, lo que simplifica la incorporación y elimina las preocupaciones sobre los costos informáticos… Creemos que los usuarios deberían poder traer sus datos personales de jardines amurallados, como Instagram, Facebook y Google, a su aplicación, por lo que puede crear una experiencia personalizada increíble desde la primera vez que un usuario interactúa con su aplicación de IA para el consumidor.

Crear una cuenta con Vana es bastante sencillo. Después de confirmar su correo electrónico, puede adjuntar datos a un avatar digital (como selfies, una descripción de usted mismo y grabaciones de voz) y explorar aplicaciones creadas con la plataforma y los conjuntos de datos de Vana. La selección de aplicaciones abarca desde chatbots estilo ChatGPT y libros de cuentos interactivos hasta un generador de perfiles Hinge.

Créditos de imagen: Viejo

Ahora bien, cabría preguntarse por qué, en esta era de mayor concienciación sobre la privacidad de los datos y ataques de ransomware, ¿alguien alguna vez ofrecería su información personal a una startup anónima, y ​​mucho menos a una respaldada por empresas? (Vana ha recaudado 20 millones de dólares hasta la fecha de Paradigm, Polychain Capital y otros patrocinadores). ¿Se puede realmente confiar en que cualquier empresa con fines de lucro no abusará ni manejará mal los datos monetizables que tenga en sus manos?

Vana Reddit DAO

Créditos de imagen: Viejo

En respuesta a esa pregunta, Kazlauskas enfatizó que el objetivo de Vana es que los usuarios “recuperen el control sobre sus datos”, señalando que los usuarios de Vana tienen la opción de autohospedar sus datos en lugar de almacenarlos en los servidores de Vana y controlar cómo funcionan sus datos. Los datos se comparten con aplicaciones y desarrolladores. También argumentó que, debido a que Vana gana dinero cobrando a los usuarios una suscripción mensual (a partir de $ 3,99) y cobrando una tarifa de “transacción de datos” a los desarrolladores (por ejemplo, por transferir conjuntos de datos para el entrenamiento de modelos de IA), la empresa no está incentivada a explotar a los usuarios y los tesoros de datos personales que traen consigo.

“Queremos crear modelos de usuarios gobernados y de propiedad de los cuales todos aporten sus datos”, dijo Kazlauskas, “y permitir a los usuarios llevar sus datos y modelos consigo a cualquier aplicación”.

Ahora, mientras Viejo no está vendiendo datos de los usuarios a empresas para el entrenamiento del modelo de IA generativa (o eso dice), quiere permitir que los usuarios lo hagan ellos mismos si así lo desean, comenzando con sus publicaciones en Reddit.

Este mes, Vana lanzó lo que llama el Reddit Data DAO (Organización Autónoma Digital), un programa que reúne los datos de Reddit de varios usuarios (incluido su karma y su historial de publicaciones) y les permite decidir juntos cómo se utilizan esos datos combinados. Después de unirse con una cuenta de Reddit, enviar un pedido a Reddit para obtener sus datos y cargarlos en la DAO, los usuarios obtienen el derecho a votar junto con otros miembros de la DAO en decisiones como la concesión de licencias de los datos combinados a empresas de IA generativa para obtener un beneficio compartido.

Es una especie de respuesta a los recientes movimientos de Reddit para comercializar datos en su plataforma.

Anteriormente, Reddit no impedía el acceso a publicaciones y comunidades con fines de capacitación en IA generativa. Pero cambió de rumbo a fines del año pasado, antes de su IPO. Desde el cambio de política, Reddit ha recaudado más de 203 millones de dólares en derechos de licencia de empresas como Google.

“La idea amplia [with the DAO is] para liberar datos de usuarios de las principales plataformas que buscan acapararlos y monetizarlos”, dijo Kazlauskas. “Esta es una novedad y es parte de nuestro impulso para ayudar a las personas a combinar sus datos en conjuntos de datos propiedad de los usuarios para entrenar modelos de IA”.

Como era de esperar, Reddit, que no trabaja con Vana de ninguna manera oficial, no está satisfecho con la DAO.

Reddit prohibió el de Vana subreddit dedicado a la discusión sobre la DAO. Y un portavoz de Reddit acusó a Vana de “explotar” su sistema de exportación de datos, que está diseñado para cumplir con regulaciones de privacidad de datos como el GDPR y la Ley de Privacidad del Consumidor de California.

“Nuestros acuerdos de datos nos permiten poner barreras a dichas entidades, incluso a la información pública”, dijo el portavoz a TechCrunch. “Reddit no comparte datos personales no públicos con empresas comerciales, y cuando los Redditors nos solicitan una exportación de sus datos, reciben de nosotros datos personales no públicos de acuerdo con las leyes aplicables. Las asociaciones directas entre Reddit y organizaciones examinadas, con términos claros y responsabilidad, son importantes, y estas asociaciones y acuerdos previenen el uso indebido y el abuso de los datos de las personas”.

Pero, ¿Reddit tiene algún motivo real para preocuparse?

Kazlauskas prevé que DAO crecerá hasta el punto en que afecte la cantidad que Reddit puede cobrar a los clientes por sus datos. Eso está muy lejos, suponiendo que alguna vez suceda; la DAO tiene poco más de 141.000 miembros, una pequeña fracción de la base de 73 millones de usuarios de Reddit. Y algunos de esos miembros podrían ser bots o cuentas duplicadas.

Luego está la cuestión de cómo distribuir de manera justa los pagos que la DAO podría recibir de los compradores de datos.

Actualmente, la DAO otorga “tokens” (criptomonedas) a los usuarios correspondientes a su Reddit. karma. Pero el karma podría no ser la mejor medida de las contribuciones de calidad al conjunto de datos, particularmente en comunidades de Reddit más pequeñas con menos oportunidades de obtenerlo.

Kazlauskas plantea la idea de que los miembros de la DAO podrían optar por compartir sus datos demográficos y multiplataforma, lo que hace que la DAO sea potencialmente más valiosa e incentiva las inscripciones. Pero eso también requeriría que los usuarios confíen aún más en Vana para tratar sus datos confidenciales de manera responsable.

Personalmente, no veo que el DAO de Vana alcance una masa crítica. Los obstáculos que se interponen en el camino son demasiados. Sin embargo, creo que no será el último intento popular de afirmar el control sobre los datos que se utilizan cada vez más para entrenar modelos generativos de IA.

Empresas emergentes como Spawning están trabajando en formas de permitir a los creadores imponer reglas que guíen cómo se utilizan sus datos para la capacitación, mientras que proveedores como Getty Images, Shutterstock y Adobe continúan experimentando con esquemas de compensación. Pero nadie ha descifrado el código todavía. ¿Puede incluso ser ¿agrietado? Dado que asesino naturaleza de la industria de la IA generativa, sin duda es una tarea difícil. Pero tal vez alguien encuentre una manera, o las autoridades la obliguen a hacerlo.



Fuente