Los medios de comunicación acusan a Perplexity de plagio y de extracción de datos web poco ética

En la era de la IA generativa, cuando los chatbots pueden brindar respuestas detalladas a preguntas basadas en contenido extraído de Internet, la línea entre el uso justo y el plagio, y entre el raspado web rutinario y el resumen poco ético, es muy delgada.

Perplexity AI es una startup que combina un motor de búsqueda con un gran modelo de lenguaje que genera respuestas detalladas, en lugar de solo enlaces. A diferencia de ChatGPT de OpenAI y Claude de Anthropic, Perplexity no entrena sus propios modelos de IA básicos, sino que utiliza modelos abiertos o disponibles comercialmente para tomar la información que recopila de Internet y traducirla en respuestas.

Pero una serie de acusaciones en junio sugieren que el enfoque de la startup raya en la falta de ética. Forbes denunció a Perplexity por supuestamente plagiar uno de sus artículos de noticias en la función beta de Perplexity Pages de la startup. Wired ha acusado a Perplexity de raspar ilícitamente su sitio web, junto con otros sitios.

Perplexity, que en abril estaba trabajando para recaudar 250 millones de dólares con una valoración cercana a los 3.000 millones, sostiene que no ha hecho nada malo. La empresa, respaldada por Nvidia y Jeff Bezos, dice que ha respetado las solicitudes de los editores de no copiar contenido y que está operando dentro de los límites de las leyes de derechos de autor de uso justo.

La situación es complicada. En el fondo, hay matices en torno a dos conceptos. El primero es el Protocolo de Exclusión de Robots, un estándar utilizado por los sitios web para indicar que no quieren que los robots accedan a su contenido o lo utilicen. El segundo es el uso legítimo en la legislación sobre derechos de autor, que establece el marco legal para permitir el uso de material protegido por derechos de autor sin permiso ni pago en determinadas circunstancias.

Extraer contenido web subrepticiamente

Créditos de la imagen: imágenes falsas

El artículo de Wired del 19 de junio afirma que Perplexity ha ignorado el Protocolo de Exclusión de Robots para rastrear subrepticiamente áreas de sitios web a las que los editores no quieren que accedan los bots. Wired informó que observó una máquina vinculada a Perplexity haciendo esto en su propio sitio de noticias, así como en otras publicaciones de su empresa matriz, Condé Nast.

El informe señaló que el desarrollador Robb Knight realizó un experimento similar y llegó a la misma conclusión.

Tanto los periodistas de Wired como Knight pusieron a prueba sus sospechas pidiendo a Perplexity que resumiera una serie de URL y luego observando en el servidor cómo una dirección IP asociada con Perplexity visitaba esos sitios. Perplexity luego “resumió” el texto de esas URL, aunque en el caso de un sitio web ficticio con contenido limitado que Wired creó para este propósito, devolvió el texto de la página textualmente.

Aquí es donde entran en juego los matices del Protocolo de Exclusión de Robots.

El web scraping es técnicamente Cuando los programas automatizados, conocidos como rastreadores, rastrean la web para indexar y recopilar información de los sitios web. Los motores de búsqueda como Google hacen esto para que las páginas web puedan incluirse en los resultados de búsqueda. Otras empresas e investigadores utilizan rastreadores para recopilar datos de Internet para análisis de mercado, investigación académica y, como hemos aprendido, para entrenar modelos de aprendizaje automático.

Los web scrapers que cumplen con este protocolo primero buscarán el archivo “robots.txt” en el código fuente de un sitio para ver qué está permitido y qué no. Hoy en día, lo que no está permitido es, por lo general, el scraping del sitio de un editor para crear conjuntos de datos de entrenamiento masivos para IA. Los motores de búsqueda y las empresas de IA, incluida Perplexity, han declarado que cumplen con el protocolo, pero no están legalmente obligados a hacerlo.

El director de negocios de Perplexity, Dmitry Shevelenko, le dijo a TechCrunch que resumir una URL no es lo mismo que rastrear. “Rastrear es simplemente ir por ahí absorbiendo información y agregándola a tu índice”, dijo Shevelenko. Señaló que la IP de Perplexity podría aparecer como un visitante a un sitio web que “de otra manera estaría prohibido en robots.txt” solo cuando un usuario ingresa una URL en su consulta, lo que “no cumple con la definición de rastreo”.

“Simplemente estamos respondiendo a una solicitud directa y específica del usuario para acceder a esa URL”, dijo Shevelenko.

En otras palabras, si un usuario proporciona manualmente una URL a una IA, Perplexity dice que su IA no está actuando como un rastreador web sino más bien como una herramienta para ayudar al usuario a recuperar y procesar la información que solicitó.

Pero para Wired y muchos otros editores, esa es una distinción sin diferencia porque visitar una URL y extraer información de ella para resumir el texto seguramente se parece mucho a un scraping si se hace miles de veces al día.

(Wired también informó que Amazon Web Services, uno de los proveedores de servicios en la nube de Perplexity, es Investigando la startup por ignorar el protocolo robots.txt para extraer páginas web que los usuarios citaron en su mensaje. AWS le dijo a TechCrunch que el informe de Wired es inexacto y que le dijo al medio que estaba procesando su consulta de medios como lo hace con cualquier otro informe que alegue abuso del servicio).

¿Plagio o uso justo?

Captura de pantalla de Perplexity Pages
Forbes acusó a Perplexity de plagiar su primicia sobre el ex director ejecutivo de Google, Eric Schmidt, que desarrolla drones de combate impulsados ​​por inteligencia artificial.
Créditos de la imagen: Perplejidad / Captura de pantalla

Wired y Forbes también han acusado a Perplexity de plagio. Irónicamente, Wired dice La perplejidad plagió el mismo artículo que denunció a la startup por extraer subrepticiamente su contenido web.

Los periodistas de Wired dijeron que el chatbot Perplexity “produjo un texto de seis párrafos, Texto de 287 palabras resumiendo de forma precisa las conclusiones de la historia y la evidencia utilizada para llegar a ellas”. Una oración reproduce exactamente una oración de la historia original; Wired dice que esto constituye plagio. Directrices del Instituto Poynter Digamos que podría ser plagio si el autor (o IA) utilizara siete palabras consecutivas de la fuente original del trabajo.

Forbes también acusó a Perplexity de plagio. El sitio de noticias publicó un informe de investigación A principios de junio, el nuevo emprendimiento del director ejecutivo de Google, Eric Schmidt, está reclutando a gran escala y probando drones con tecnología de inteligencia artificial con aplicaciones militares. Al día siguiente, el editor de Forbes, John Paczkowski, publicado en X diciendo que la Perplejidad tenía republicó la primicia como parte de su función beta, Perplexity Pages.

Páginas de perplejidadque por ahora solo está disponible para ciertos suscriptores de Perplexity, es una nueva herramienta que promete ayudar a los usuarios a convertir sus investigaciones en “contenido visualmente impactante y completo”, según Perplexity. Algunos ejemplos de este tipo de contenido en el sitio provienen de los empleados de la startup, e incluyen artículos como “Una guía para principiantes sobre la batería” o “Steve Jobs: CEO visionario”.

“Roba la mayor parte de nuestros artículos”, escribió Paczkowski. “Nos cita a nosotros y a algunos que nos rebloguearon como fuentes de la forma más fácil de ignorar”.

Forbes informó que muchas de las publicaciones seleccionadas por el equipo de Perplexity son “notablemente similares a historias originales de varias publicaciones, incluidas Forbes, CNBC y Bloomberg”. Forbes dijo que las publicaciones obtuvieron decenas de miles de vistas y no mencionaron ninguna de las publicaciones por su nombre en el texto del artículo. En cambio, los artículos de Perplexity incluyeron atribuciones en forma de “logotipos pequeños y fáciles de pasar por alto que enlazan a ellos”.

Además, Forbes dijo que la publicación sobre Schmidt contiene “textos casi idénticos” a la exclusiva de Forbes. La publicación también incluía una imagen creada por el equipo de diseño de Forbes que parecía haber sido ligeramente modificada por Perplexity.

El director ejecutivo de Perplexity, Aravind Srinivas, respondió a Forbes en ese momento diciendo que la startup citaría fuentes de manera más destacada en el futuro, una solución que no es infalible, ya que las citas en sí mismas enfrentan dificultades técnicas. ChatGPT y otros modelos tienen enlaces alucinadosy dado que Perplexity utiliza modelos OpenAI, es probable que sea susceptible a tales alucinaciones. De hecho, Wired informó que observó que Perplexity alucinaba historias enteras.

Además de señalar los “defectos” de Perplexity, Srinivas y la compañía han redoblado sus esfuerzos en favor del derecho de Perplexity a utilizar dicho contenido para resúmenes.

Aquí es donde entran en juego los matices del uso legítimo. El plagio, aunque está mal visto, técnicamente no es ilegal.

De acuerdo con la Oficina de Derechos de Autor de Estados UnidosEs legal utilizar porciones limitadas de una obra, incluidas citas, con fines tales como comentarios, críticas, reportajes periodísticos e informes académicos. Las empresas de inteligencia artificial como Perplexity sostienen que proporcionar un resumen de un artículo está dentro de los límites del uso legítimo.

“Nadie tiene el monopolio de los hechos”, afirmó Shevelenko. “Una vez que los hechos salen a la luz, todo el mundo puede usarlos”.

Shevelenko comparó los resúmenes de Perplexity con la forma en que los periodistas a menudo utilizan información de otras fuentes de noticias para reforzar sus propios informes.

Mark McKenna, profesor de Derecho en el Instituto de Tecnología, Derecho y Política de la UCLA, dijo a TechCrunch que la situación no es fácil de desentrañar. En un caso de uso legítimo, los tribunales sopesarían si el resumen utiliza muchas de las expresiones del artículo original, en lugar de solo las ideas. También podrían examinar si la lectura del resumen podría sustituir a la lectura del artículo.

“No hay límites claros”, dijo McKenna. “Así que [Perplexity] Decir con hechos lo que dice un artículo o lo que informa sería utilizar aspectos de la obra que no están sujetos a derechos de autor. Eso sería solo hechos e ideas. Pero cuanto más incluya el resumen la expresión y el texto reales, más empezará a parecerse a una reproducción, en lugar de un simple resumen”.

Desafortunadamente para los editores, a menos que Perplexity utilice expresiones completas (y aparentemente, en algunos casos, lo hace), sus resúmenes podrían no considerarse una violación del uso justo.

Cómo Perplexity intenta protegerse

Las empresas de inteligencia artificial como OpenAI han firmado acuerdos de medios con una variedad de editores de noticias para acceder a su contenido actual y de archivo con el que entrenar sus algoritmos. A cambio, OpenAI promete mostrar artículos de noticias de esos editores en respuesta a las consultas de los usuarios en ChatGPT. (Pero incluso eso Tiene algunos problemas que necesitan ser resueltoscomo informó Nieman Lab la semana pasada).

Perplexity ha postergado el anuncio de su propia serie de acuerdos con medios, tal vez esperando a que se calmen las acusaciones en su contra. Pero la empresa está “a toda máquina” en una serie de acuerdos de reparto de ingresos publicitarios con editoriales.

La idea es que Perplexity comience a incluir anuncios junto con las respuestas a las consultas, y los editores que tengan contenido citado en alguna respuesta obtendrán una porción de los ingresos publicitarios correspondientes. Shevelenko dijo que Perplexity también está trabajando para permitir que los editores accedan a su tecnología para que puedan crear experiencias de preguntas y respuestas y potenciar cosas como preguntas relacionadas de forma nativa dentro de sus sitios y productos.

Pero ¿es esto simplemente una hoja de parra para ocultar el robo sistemático de propiedad intelectual? Perplexity no es el único chatbot que amenaza con resumir el contenido de manera tan completa que los lectores no ven la necesidad de hacer clic para acceder al material original.

Y si los sistemas de inteligencia artificial como este siguen tomando el trabajo de los editores y lo reutilizan para sus propios negocios, a los editores les resultará más difícil ganar dinero con la publicidad. Eso significa que, con el tiempo, habrá menos contenido para extraer. Cuando ya no quede más contenido para extraer, los sistemas de inteligencia artificial generativa pasarán a entrenarse con datos sintéticos, lo que podría dar lugar a un ciclo de retroalimentación infernal de contenido potencialmente sesgado e inexacto.

Fuente