Anthropic busca financiar una nueva generación más completa de puntos de referencia de IA

Anthropic está lanzando una programa para financiar el desarrollo de nuevos tipos de puntos de referencia capaces de evaluar el rendimiento y el impacto de los modelos de IA, incluidos modelos generativos como el propio Claude.

El programa de Anthropic, presentado el lunes, otorgará subvenciones a organizaciones de terceros que puedan, como dice la empresa en una publicación de blog, “medir de manera efectiva las capacidades avanzadas en los modelos de IA”. Los interesados ​​pueden enviar solicitudes para que se evalúen de forma continua.

“Nuestra inversión en estas evaluaciones tiene como objetivo mejorar todo el campo de la seguridad de la IA, proporcionando herramientas valiosas que beneficien a todo el ecosistema”, escribió Anthropic en su blog oficial. “El desarrollo de evaluaciones de alta calidad y relevantes para la seguridad sigue siendo un desafío, y la demanda está superando la oferta”.

Como hemos destacado antes, la IA tiene un problema de evaluación comparativa. Los puntos de referencia que se citan con más frecuencia en la actualidad no reflejan adecuadamente cómo la persona promedio utiliza realmente los sistemas que se están probando. También hay dudas sobre si algunos puntos de referencia, en particular los publicados antes del amanecer de la IA generativa moderna, miden siquiera lo que pretenden medir, dada su antigüedad.

La solución de alto nivel y más difícil de lo que parece que propone Anthropic consiste en crear puntos de referencia desafiantes con un enfoque en la seguridad de la IA y las implicaciones sociales a través de nuevas herramientas, infraestructura y métodos.

La empresa pide específicamente pruebas que evalúen la capacidad de un modelo para realizar tareas como llevar a cabo ciberataques, “mejorar” armas de destrucción masiva (por ejemplo, armas nucleares) y manipular o engañar a las personas (por ejemplo, mediante deepfakes o desinformación). En cuanto a los riesgos de la IA relacionados con la seguridad y la defensa nacional, Anthropic dice que está comprometida con el desarrollo de una especie de “sistema de alerta temprana” para identificar y evaluar los riesgos, aunque no revela en la publicación del blog lo que podría implicar dicho sistema.

Anthropic también dice que pretende que su nuevo programa apoye la investigación de puntos de referencia y tareas “de extremo a extremo” que investiguen el potencial de la IA para ayudar en el estudio científico, conversar en varios idiomas y mitigar los sesgos arraigados, así como la toxicidad de la autocensura.

Para lograr todo esto, Anthropic prevé nuevas plataformas que permitan a los expertos en la materia desarrollar sus propias evaluaciones y ensayos a gran escala de modelos que involucren a “miles” de usuarios. La empresa afirma que ha contratado a un coordinador a tiempo completo para el programa y que podría comprar o ampliar proyectos que considere que tienen potencial de escalamiento.

“Ofrecemos una gama de opciones de financiación adaptadas a las necesidades y la etapa de cada proyecto”, escribe Anthropic en la publicación, aunque un portavoz de Anthropic se negó a proporcionar más detalles sobre esas opciones. “Los equipos tendrán la oportunidad de interactuar directamente con los expertos de Anthropic del equipo rojo fronterizo, los equipos de ajuste, confianza y seguridad y otros equipos relevantes”.

El esfuerzo de Anthropic por apoyar nuevos puntos de referencia de la IA es loable, siempre que haya suficiente dinero y personal detrás. Pero dadas las ambiciones comerciales de la empresa en la carrera de la IA, puede resultar difícil confiar plenamente en ella.

En la publicación del blog, Anthropic es bastante transparente sobre el hecho de que quiere que ciertas evaluaciones que financia se alineen con las Clasificaciones de seguridad de la IA él desarrollado (con algunas aportaciones de terceros, como la organización de investigación en IA sin ánimo de lucro METR). Eso está dentro de las prerrogativas de la empresa, pero también puede obligar a los solicitantes del programa a aceptar definiciones de IA “segura” o “riesgosa” con las que tal vez no estén completamente de acuerdo.

Es probable que una parte de la comunidad de IA también esté en desacuerdo con las referencias de Anthropic a los riesgos “catastróficos” y “engañosos” de la IA, como los riesgos de las armas nucleares. Muchos expertos Los expertos afirman que hay pocas pruebas que sugieran que la IA tal como la conocemos adquirirá capacidades que acabarán con el mundo y superarán en inteligencia a los humanos en un futuro próximo, si es que alguna vez lo hace. Las afirmaciones sobre una inminente “superinteligencia” sólo sirven para desviar la atención de los urgentes problemas regulatorios de la IA, como las tendencias alucinatorias de la IA, añaden.

En su publicación, Anthropic escribe que espera que su programa sirva como “un catalizador para el progreso hacia un futuro donde la evaluación integral de la IA sea un estándar de la industria”. Esa es una misión que muchos investigadores abiertos no afiliado a ninguna corporación Los esfuerzos por crear mejores puntos de referencia de IA pueden identificarse con esto, pero aún queda por ver si esos esfuerzos están dispuestos a unir fuerzas con un proveedor de IA cuya lealtad, en última instancia, recae en los accionistas.

Fuente