Los próximos cambios de Reddit intentan salvaguardar la plataforma contra los rastreadores de IA

Reddit Anunciado el martes que está actualizando su Protocolo de exclusión de robots (archivo robots.txt), que indica a los robots web automatizados si tienen permiso para rastrear un sitio.

Históricamente, el archivo robots.txt se utilizaba para permitir que los motores de búsqueda escaparan de un sitio y luego dirigieran a las personas al contenido. Sin embargo, con el auge de la IA, los sitios web se están eliminando y utilizando para entrenar modelos sin reconocer la fuente real del contenido.

Junto con el archivo robots.txt actualizado, Reddit continuará limitando la velocidad y bloqueando el acceso de robots y rastreadores desconocidos a su plataforma. La compañía le dijo a TechCrunch que los bots y rastreadores tendrán una velocidad limitada o se bloquearán si no cumplen con la Política de contenido público de Reddit y no tienen un acuerdo con la plataforma.

Reddit dice que la actualización no debería afectar a la mayoría de los usuarios o actores de buena fe, como investigadores y organizaciones, como Internet Archive. En cambio, la actualización está diseñada para disuadir a las empresas de inteligencia artificial de entrenar sus grandes modelos de lenguaje en el contenido de Reddit. Por supuesto, los rastreadores de IA podrían ignorar el archivo robots.txt de Reddit.

El anuncio se produce unos días después de una Investigación cableada descubrió que la startup de búsqueda impulsada por IA, Perplexity, ha estado robando y extrayendo contenido. Wired descubrió que Perplexity parece ignorar las solicitudes de no eliminar su sitio web, a pesar de que bloqueó el inicio en su archivo robots.txt. CEO de perplejidad Aravind Srinivas respondió a los reclamos y dijo que el archivo robots.txt no es un marco legal.

Los próximos cambios de Reddit no afectarán a las empresas con las que tiene un acuerdo. Por ejemplo, Reddit tiene un Acuerdo de 60 millones de dólares con Google eso permite al gigante de las búsquedas entrenar sus modelos de IA en el contenido de la plataforma social. Con estos cambios, Reddit está indicando a otras empresas que quieran utilizar los datos de Reddit para el entrenamiento de IA que tendrán que pagar.

“Cualquier persona que acceda al contenido de Reddit debe cumplir con nuestras políticas, incluidas las vigentes para proteger a los redditors”, dijo Reddit en una publicación de blog. “Somos selectivos acerca de con quién trabajamos y confiamos en el acceso a gran escala al contenido de Reddit”.

El anuncio no es una sorpresa, ya que Reddit lanzó una nueva política hace unas semanas que fue diseñada para guiar cómo las entidades comerciales y otros socios acceden y utilizan los datos de Reddit.

Fuente