Spawning quiere construir conjuntos de datos de entrenamiento de IA más éticos

Jordan Meyer y Mathew Dryhurst fundaron Spawning AI para crear herramientas que ayuden a los artistas a ejercer más control sobre cómo se utilizan sus obras en línea. Su último proyecto, llamado Fuente.Plustiene como objetivo seleccionar medios “no infractores” para el entrenamiento de modelos de IA.

La primera iniciativa del proyecto Source.Plus es un conjunto de datos con casi 40 millones de imágenes de dominio público e imágenes bajo el nombre de Licencia CC0 de Creative Commons, que permite a los creadores renunciar a casi todos los intereses legales sobre sus obras. Meyer afirma que, a pesar de que es sustancialmente más pequeño que algunos otros conjuntos de datos de entrenamiento de IA generativa Por ahí, el conjunto de datos de Source.Plus ya es de “alta calidad” suficiente para entrenar un modelo de generación de imágenes de última generación.

“Con Source.Plus, estamos construyendo una plataforma universal de participación”, afirmó Meyer. “Nuestro objetivo es facilitar que los titulares de derechos ofrezcan sus medios para su uso en la capacitación en IA generativa, en sus propios términos, y que los desarrolladores incorporen sin problemas esos medios en sus flujos de trabajo de capacitación”.

Gestión de Derechos

El debate sobre la ética del entrenamiento de modelos generativos de IA, particularmente modelos de generación de arte como Stable Diffusion y DALL-E 3 de OpenAI, continúa sin cesar y tiene enormes implicaciones para los artistas, sin embargo, el polvo termina asentándose.

Los modelos de IA generativa “aprenden” a producir sus resultados (por ejemplo, arte fotorrealista) entrenándose con una gran cantidad de datos relevantes: imágenes, en ese caso. Algunos desarrolladores de estos modelos argumentan que el uso legítimo les da derecho a escapar de datos de fuentes públicas, independientemente del estado de los derechos de autor de esos datos. Otros han intentado seguir la línea, compensando o al menos acreditando a los propietarios de contenido por sus contribuciones a los conjuntos de capacitación.

Meyer, director ejecutivo de Spawning, cree que nadie ha decidido cuál es el mejor enfoque… todavía.

“El entrenamiento de IA con frecuencia utiliza por defecto los datos más fáciles de obtener, que no siempre han sido los más justos o los más responsables”, dijo a TechCrunch en una entrevista. “Los artistas y los titulares de derechos han tenido poco control sobre cómo se utilizan sus datos para la capacitación en IA, y los desarrolladores no han tenido alternativas de alta calidad que faciliten el respeto de los derechos sobre los datos”.

Source.Plus, disponible en versión beta limitada, se basa en las herramientas existentes de Spawning para la gestión de derechos de uso y procedencia del arte.

En 2022, Spawning creó HaveIBeenTrained, un sitio web que permite a los creadores optar por no participar en los conjuntos de datos de entrenamiento utilizados por los proveedores que se han asociado con Spawning, incluidos Hugging Face y Stability AI. Después de recaudar 3 millones de dólares en capital de riesgo de inversores, incluidos True Ventures y Seed Club Ventures, Spawning lanzó ai.text, una forma para que los sitios web “establezcan permisos” para la IA y un sistema, Kudurru, para defenderse contra los robots de extracción de datos. .

Source.Plus es el primer esfuerzo de Spawning para crear una biblioteca multimedia y curarla internamente. El conjunto de datos de imágenes inicial, PD/CC0, se puede utilizar para aplicaciones comerciales o de investigación, afirma Meyer.

La biblioteca Source.Plus.
Créditos de imagen: Desove

“Source.Plus no es sólo un depósito de datos de entrenamiento; es una plataforma de enriquecimiento con herramientas para respaldar el proceso de capacitación”, continuó. “Nuestro objetivo es tener un conjunto de datos CC0 de alta calidad y no infractor, capaz de respaldar un potente modelo base de IA disponible dentro de un año”.

Organizaciones como Getty Images, Adobe, Shutterstock y la startup de inteligencia artificial Bria afirman utilizar solo datos de fuentes justas para la capacitación de modelos. (Getty llega incluso a llamar a sus productos de IA generativa “comercialmente seguros”). Pero Meyer dice que Spawning pretende establecer un “estándar más alto” para lo que significa obtener datos de manera justa.

Source.Plus filtra imágenes para “exclusión voluntaria” y otras preferencias de capacitación de artistas, mostrando información de procedencia sobre cómo y de dónde se obtuvieron las imágenes. También excluye imágenes que no tienen licencia CC0, incluidas aquellas con una Licencia Creative Commons BY 1.0, que requieren atribución. Y Spawning dice que está monitoreando los desafíos de derechos de autor de fuentes donde alguien distinto a los creadores es responsable de indicar el estado de los derechos de autor de una obra, como Wikimedia Commons.

“Validamos meticulosamente las licencias informadas de las imágenes que recopilamos y se excluyeron todas las licencias cuestionables, un paso que muchos conjuntos de datos ‘justos’ no toman”, dijo Meyer.

Históricamente, las imágenes problemáticas (incluidas imágenes personales sensibles, violentas, pornográficas) han plagado los conjuntos de datos de entrenamiento, tanto abiertos como comerciales.

Los mantenedores del conjunto de datos LAION se vieron obligados a desconectar una biblioteca después de que se descubrieron informes registros médicos y representaciones de abuso sexual infantil; sólo esta semana, un estudiar de Human Rights Watch descubrió que uno de los repositorios de LAION incluía rostros de niños brasileños sin el consentimiento o conocimiento de esos niños. Por otra parte, la biblioteca de medios de Adobe, Adobe Stock, que la compañía utiliza para entrenar sus modelos generativos de IA, incluido el modelo Firefly Image generador de arte, fue Se descubrió que contenía imágenes generadas por IA. de rivales como Midjourney.

Fuente de desove.Plus
Obra de arte en la galería Source.Plus.
Créditos de imagen: Desove

La solución de Spawning son modelos clasificadores entrenados para detectar desnudez, sangre, información de identificación personal y otros fragmentos indeseables en las imágenes. Al reconocer que ningún clasificador es perfecto, Spawning planea permitir a los usuarios filtrar “flexiblemente” el conjunto de datos Source.Plus ajustando los umbrales de detección de los clasificadores, dice Meyer.

“Empleamos moderadores para verificar la propiedad de los datos”, añadió Meyer. “También tenemos funciones de remediación integradas, donde los usuarios pueden marcar trabajos ofensivos o posibles infractores, y se puede auditar el rastro de cómo se consumieron esos datos”.

Compensación

La mayoría de los programas para compensar a los creadores por sus contribuciones de datos de entrenamiento de IA generativa no han ido excepcionalmente bien. Algunos programas se basan en métricas opacas para calcular los pagos a los creadores, mientras que otros pagan cantidades que los artistas consideran irrazonablemente bajas.

Tomemos como ejemplo Shutterstock. La biblioteca de medios de stock, que ha hecho acuerdos con proveedores de IA que van por decenas de millones de dólares, paga a un “fondo de contribuyentes” por las obras de arte que utiliza para entrenar sus modelos de IA generativa o licencias para desarrolladores externos. Pero Shutterstock no es transparente sobre lo que los artistas pueden esperar ganar, ni les permite establecer sus propios precios y condiciones; una estimación de terceros fija las ganancias en 15 dólares por 2.000 imágenes, no exactamente una cantidad trascendental.

Una vez que Source.Plus salga de la versión beta a finales de este año y se expanda a conjuntos de datos más allá de PD/CC0, tomará un rumbo diferente al de otras plataformas, permitiendo a los artistas y titulares de derechos establecer sus propios precios por descarga. El desove cobrará una tarifa, pero sólo una tarifa fija: una “décima parte de un centavo”, dice Meyer.

Los clientes también pueden optar por pagarle a Spawning $10 por mes, más la tarifa típica de descarga por imagen, por Source.Plus Curation, un plan de suscripción que les permite administrar colecciones de imágenes de forma privada, descargar el conjunto de datos hasta 10,000 veces al mes y obtener Acceso temprano a nuevas funciones, como colecciones “premium” y enriquecimiento de datos.

Fuente de desove.Plus
Créditos de imagen: Desove

“Brindaremos orientación y recomendaciones basadas en los estándares actuales de la industria y métricas internas, pero en última instancia, los contribuyentes al conjunto de datos determinan qué hace que valga la pena para ellos”, dijo Meyer. “Hemos elegido este modelo de precios intencionalmente para darles a los artistas la mayor parte de los ingresos y permitirles establecer sus propios términos de participación. Creemos que esta división de ingresos es significativamente más favorable para los artistas que la división porcentual de ingresos más común, y conducirá a mayores pagos y mayor transparencia”.

Si Source.Plus gana la tracción que Spawning espera, Spawning tiene la intención de expandirlo más allá de las imágenes a otros tipos de medios, incluidos audio y video. Spawning está en conversaciones con empresas anónimas para que sus datos estén disponibles en Source.Plus. Y, dice Meyer, Spawning podría construir sus propios modelos de IA generativa utilizando datos de los conjuntos de datos de Source.Plus.

“Esperamos que los titulares de derechos que quieran participar en la economía generativa de la IA tengan la oportunidad de hacerlo y recibir una compensación justa”, dijo Meyer. “También esperamos que los artistas y desarrolladores que se hayan sentido en conflicto acerca de interactuar con la IA tengan la oportunidad de hacerlo de una manera respetuosa con otros creativos”.

Ciertamente, Spawning tiene un nicho que hacerse aquí. Source.Plus parece uno de los intentos más prometedores de involucrar a los artistas en el proceso de desarrollo de la IA generativa y permitirles compartir las ganancias de su trabajo.

Como escribió recientemente mi colega Amanda Silberling, la aparición de aplicaciones como la comunidad de alojamiento de arte Cara, que experimentó un aumento en su uso después de que Meta anunció que podría entrenar su IA generativa en contenido de Instagram, incluido el contenido de artistas, muestra que la comunidad creativa ha alcanzado un punto de quiebre. Están desesperados por encontrar alternativas a las empresas y plataformas que perciben como ladrones, y Source.Plus podría ser una opción viable.

Pero si Spawning siempre actúa en beneficio de los artistas (un gran si, considerando que Spawning es un negocio respaldado por capital de riesgo), me pregunto si Source.Plus puede crecer con tanto éxito como prevé Meyer. Si las redes sociales nos han enseñado algo es que la moderación (particularmente de millones de contenidos generados por los usuarios) es un problema intratable.

Lo sabremos muy pronto.

Fuente