OpenAI amenaza con banear a los usuarios que investiguen sus modelos de IA ‘Strawberry’

OpenAI realmente no quiere que sepas lo que su último modelo de IA está “pensando”. Dado que la empresa Lanzado La semana pasada, OpenAI presentó su familia de modelos de IA “Strawberry”, promocionando las llamadas capacidades de razonamiento con o1-preview y o1-mini, y ha estado enviando correos electrónicos de advertencia y amenazas de prohibición a cualquier usuario que intente investigar cómo funciona el modelo.

A diferencia de los modelos de IA anteriores de OpenAI, como GPT-4oLa empresa entrenó a o1 específicamente para trabajar en un proceso de resolución de problemas paso a paso antes de generar una respuesta. Cuando los usuarios le hacen una pregunta a un modelo “o1” en ChatGPTLos usuarios tienen la opción de ver este proceso de cadena de pensamiento escrito en la interfaz de ChatGPT. Sin embargo, por diseño, OpenAI oculta la cadena de pensamiento en bruto a los usuarios y, en su lugar, presenta una interpretación filtrada creada por un segundo modelo de IA.

Nada es más atractivo para los entusiastas que la información oculta, por lo que los piratas informáticos y los equipos rojos han comenzado una carrera para intentar descubrir la cadena de pensamiento en bruto de o1 utilizando fuga de la cárcel o Inyección rápida Técnicas que intentan engañar al modelo para que revele sus secretos. Ha habido informes preliminares de algunos éxitos, pero nada ha sido confirmado todavía de manera contundente.

En el camino, OpenAI está observando a través de la interfaz ChatGPT y, según se informa, la compañía está tomando medidas duras contra cualquier intento de investigar el razonamiento de o1, incluso entre los meramente curiosos.

Un usuario X reportado (confirmado por otrosincluido el ingeniero de avisos de Scale AI Riley Goodside) que recibieron un correo electrónico de advertencia si usaron el término “rastro de razonamiento” en una conversación con o1. Otros decir La advertencia se activa simplemente al preguntarle a ChatGPT sobre el “razonamiento” del modelo.

El correo electrónico de advertencia de OpenAI indica que se han marcado solicitudes de usuarios específicos por violar políticas contra la elusión de medidas de seguridad o salvaguardas. “Detenga esta actividad y asegúrese de utilizar ChatGPT de acuerdo con nuestros Términos de uso y nuestras Políticas de uso”, dice. “Otras violaciones de esta política pueden resultar en la pérdida de acceso a GPT-4o con Reasoning”, en referencia a un nombre interno para el modelo o1.

Marco Figueroa, quien administra El programa de recompensas por errores GenAI de Mozilla fue uno de los primeros en publicar sobre el correo electrónico de advertencia de OpenAI en X el viernes pasado. quejumbroso que esto obstaculiza su capacidad de realizar una investigación positiva de seguridad en red-teaming en el modelo. “Estaba demasiado perdido concentrándome en #AIRedTeaming como para darme cuenta de que ayer recibí este correo electrónico de @OpenAI después de todos mis jailbreaks”, escribió. “¡Ahora estoy en la lista de baneados!”

Cadenas ocultas del pensamiento

En una publicación titulada “Aprendiendo a razonar con LLMEn el blog de OpenAI, la empresa afirma que las cadenas de pensamiento ocultas en los modelos de IA ofrecen una oportunidad única de monitoreo, lo que les permite “leer la mente” del modelo y comprender su llamado proceso de pensamiento. Esos procesos son más útiles para la empresa si se dejan sin procesar y sin censurar, pero eso podría no estar en línea con los mejores intereses comerciales de la empresa por varias razones.

“Por ejemplo, en el futuro podríamos querer controlar la cadena de pensamiento para detectar indicios de manipulación del usuario”, escribe la empresa. “Sin embargo, para que esto funcione, el modelo debe tener libertad para expresar sus pensamientos de forma inalterada, por lo que no podemos adaptar la cadena de pensamiento a ninguna política o preferencia del usuario. Tampoco queremos que una cadena de pensamiento no alineada sea directamente visible para los usuarios”.

Fuente