AI Is a Black Box. Anthropic Figured Out a Way to Look Inside

El año pasado, el equipo comenzó a experimentar con un modelo diminuto que utiliza una sola capa de neuronas. (Los LLM sofisticados tienen docenas de capas). La esperanza era que en el entorno más simple posible pudieran descubrir patrones que designaran características. Hicieron innumerables experimentos sin éxito. “Probamos un montón de cosas y nada funcionó. Parecía un montón de basura al azar”, dice Tom Henighan, miembro del personal técnico de Anthropic. Luego, una serie denominada “Johnny” (a cada experimento se le asignó un nombre aleatorio) comenzó a asociar patrones neuronales con conceptos que aparecían en sus resultados.

“Chris lo miró y dijo: ‘Mierda’. Esto se ve fantástico’”, dice Henighan, quien también quedó atónito. “Lo miré y pensé: ‘Oh, vaya, espera, ¿está funcionando?’”

De repente, los investigadores pudieron identificar las características que codificaba un grupo de neuronas. Podían mirar dentro de la caja negra. Henighan dice que identificó las primeras cinco características que observó. Un grupo de neuronas significaba textos en ruso. Otro estaba asociado con funciones matemáticas en el lenguaje informático Python. Etcétera.

Una vez que demostraron que podían identificar características En el modelo diminuto, los investigadores se propusieron la tarea más complicada de decodificar un LLM de tamaño completo en la naturaleza. Utilizaron Claude Sonnet, la versión de potencia media de los tres modelos actuales de Anthropic. Eso también funcionó. Una característica que les llamó la atención estaba asociada con el puente Golden Gate. Trazaron el conjunto de neuronas que, cuando se activaron juntas, indicaron que Claude estaba “pensando” en la enorme estructura que une San Francisco con el condado de Marin. Es más, cuando se activaron conjuntos similares de neuronas, evocaron sujetos adyacentes al puente Golden Gate: Alcatraz, el gobernador de California, Gavin Newsom, y la película de Hitchcock. Vértigo, que se desarrolló en San Francisco. En total, el equipo identificó millones de características, una especie de Piedra Rosetta para decodificar la red neuronal de Claude. Muchas de las características estaban relacionadas con la seguridad, incluido “acercarse a alguien por algún motivo oculto”, “discusión sobre guerra biológica” y “complots malvados para apoderarse del mundo”.

Luego, el equipo de Anthropic dio el siguiente paso para ver si podían usar esa información para cambiar el comportamiento de Claude. Comenzaron a manipular la red neuronal para aumentar o disminuir ciertos conceptos: una especie de cirugía cerebral con IA, con el potencial de hacer que los LLM sean más seguros y aumentar su poder en áreas seleccionadas. “Digamos que tenemos este tablero de características. Encendemos el modelo, uno de ellos se enciende y vemos: ‘Oh, está pensando en el puente Golden Gate’”, dice Shan Carter, un científico antrópico del equipo. “Así que ahora estamos pensando, ¿qué pasaría si le pusiéramos un pequeño control a todo esto? ¿Y qué pasa si giramos ese dial?

Hasta ahora, la respuesta a esa pregunta parece ser que es muy importante girar el dial en la medida correcta. Al suprimir esas características, afirma Anthropic, el modelo puede producir programas informáticos más seguros y reducir el sesgo. Por ejemplo, el equipo encontró varias características que representaban prácticas peligrosas, como códigos informáticos inseguros, correos electrónicos fraudulentos e instrucciones para fabricar productos peligrosos.

Fuente