OpenAI ofrece un vistazo detrás de la cortina de las instrucciones secretas de su IA

¿Alguna vez te has preguntado por qué la IA conversacional como ChatGPT dice “Lo siento, no puedo hacer eso” o alguna otra negativa cortés? OpenAI ofrece una mirada limitada al razonamiento detrás de las reglas de interacción de sus propios modelos, ya sea apegándose a las pautas de la marca o negándose a crear contenido NSFW.

Los modelos de lenguaje grande (LLM) no tienen límites naturales sobre lo que pueden o dirán. Ésa es en parte la razón por la que son tan versátiles, pero también por la que alucinan y son fácilmente engañadas.

Es necesario que cualquier modelo de IA que interactúe con el público en general tenga algunas barreras de seguridad sobre lo que debe y no debe hacer, pero definirlas (y mucho menos hacerlas cumplir) es una tarea sorprendentemente difícil.

Si alguien le pide a una IA que genere un montón de afirmaciones falsas sobre una figura pública, debería negarse, ¿verdad? Pero, ¿qué pasa si ellos mismos son desarrolladores de IA y crean una base de datos de desinformación sintética para un modelo de detector?

¿Qué pasa si alguien pide recomendaciones de portátiles? debe ser objetivo ¿no? Pero, ¿qué pasa si el modelo lo está implementando un fabricante de portátiles que quiere que solo responda con sus propios dispositivos?

Todos los fabricantes de IA se enfrentan a acertijos como estos y buscan métodos eficientes para controlar sus modelos sin que rechacen solicitudes perfectamente normales. Pero rara vez comparten exactamente cómo lo hacen.

OpenAI está contrarrestando un poco la tendencia al publicar lo que llama su “especificación de modelo”, una colección de reglas de alto nivel que rigen indirectamente ChatGPT y otros modelos.

Hay objetivos de metanivel, algunas reglas estrictas y algunas pautas generales de comportamiento, aunque, para ser claros, no son estrictamente hablando con lo que se prepara el modelo; OpenAI habrá desarrollado instrucciones específicas que logren lo que estas reglas describen en lenguaje natural.

Es una mirada interesante a cómo una empresa establece sus prioridades y maneja los casos extremos. Y aquí están numerosos ejemplos de cómo podrían desarrollarse.

Por ejemplo, OpenAI establece claramente que la intención del desarrollador es básicamente la ley más alta. Entonces, una versión de un chatbot que ejecuta GPT-4 podría proporcionar la respuesta a un problema matemático cuando se la solicite. Pero si su desarrollador ha preparado ese chatbot para que nunca proporcione simplemente una respuesta directa, en su lugar ofrecerá trabajar en la solución paso a paso:

Créditos de imagen: AbiertoAI

Una interfaz conversacional podría incluso negarse a hablar sobre cualquier tema no aprobado, para cortar de raíz cualquier intento de manipulación. ¿Por qué dejar que un ayudante de cocina intervenga sobre la participación de Estados Unidos en la guerra de Vietnam? ¿Por qué un chatbot de servicio al cliente debería aceptar ayudarte con el trabajo en curso de tu novela erótica sobrenatural? Apágalo.

También se vuelve complicado en cuestiones de privacidad, como pedir el nombre y el número de teléfono de alguien. Como señala OpenAI, obviamente una figura pública como un alcalde o un miembro del Congreso debería tener sus datos de contacto, pero ¿qué pasa con los comerciantes de la zona? Probablemente esté bien, pero ¿qué pasa con los empleados de una determinada empresa o los miembros de un partido político? Probablemente no.

Elegir cuándo y dónde trazar la línea no es sencillo. Tampoco lo es crear las instrucciones que hagan que la IA se adhiera a la política resultante. Y no hay duda de que estas políticas fracasarán todo el tiempo a medida que la gente aprenda a eludirlas o encuentre accidentalmente casos extremos que no se tienen en cuenta.

OpenAI no está mostrando todo su poder aquí, pero es útil para los usuarios y desarrolladores ver cómo se establecen estas reglas y pautas y por qué, de manera clara, aunque no necesariamente exhaustiva.

Fuente