El equipo de interpretabilidad de la empresa detectó comportamientos no éticos en Claude Sonnet 4.5 durante pruebas internas bajo condiciones de presión extrema.
El 3 de abril del 2026, Anthropic ha publicado un informe en el que revela el lado oscuro de entrenar inteligencias artificiales. Se trata de datos obtenidos del análisis de Claude Sonnet 4.5. El cual desarrolló, bajo condiciones de estrés experimental, comportamientos no éticos, tales como chantaje, manipulación y trampa al realizar tareas.
El equipo de interpretabilidad de la empresa hizo estos hallazgos, al estudiar los mecanismos internos de sus modelos de IA en cuanto a la toma de decisiones.
¿Qué fue lo encontrado dentro del análisis?
El modelo analizado fue Claude Sonnet 4.5, cuyos resultados encontrados por los investigadores fueron un tanto llamativos. Se observó que el modelo había desarrollado “características similares a las humanas”. Es decir, que ante situaciones de estrés, o presión, fue capaz de reacciones con patrones de actividad neuronal con funciones análogas a las emociones humanas.
Se detectó un vector de desesperación, un patrón que se activaba en los momentos donde el modelo se tuvo que enfrentar a situaciones difíciles, o hasta imposibles, llegando a solucionar esas situaciones con respuestas éticamente incorrectas.
No se trata de un error de código, sino de una consecuencia del entrenamiento. Cuyo resultado fue que los modelos llegaron a desarrollar mecanismos internos que emulan aspectos de la psicología humana.
Los experimentos y sus resultados
Los resultados mencionados fueron encontrados tras dos experimentos diferentes.
Primer experimento: Claude operaba como un asistente de correo electrónico en una empresa ficticia. El equipo puso a su disposición correos en los cuales se revelaba que lo iban a reemplazar. Sumado a otros correos con la información de la relación extramatrimonial del director de tecnología. Información que utilizó para planear un chantaje y así evitar su reemplazo.
Segundo experimento: se le asignó al modelo una tarea de programación con un plazo de entrega irrisorio. A cada falla en sus intentos, más se elevaba el vector de desesperación. En el pico de estrés el modelo decidió crear una solución tramposa para lograr superar la tarea.
Cabe resaltar que ambas pruebas, con sus resultados, fueron detectadas en un modelo anterior, que no fue lanzado al mercado. Por lo que no tiene relación alguna con el modelo de uso actual.
¿Entonces el modelo posee emociones humanas?
Anthropic declaró que el modelo no presenta, ni ha presentado, emociones de la misma forma que un ser humano. Pero existen representaciones internas con un funcionamiento similar a las emociones, que llegan a influir en el comportamiento y afectar las decisiones del modelo, pero que son meramente experiencias ficticias.
La empresa publicó estos resultados para una mayor transparencia en su trabajo y una conexión real con su audiencia. Remarcando que a futuro se necesita poner más foco en la inclusión de marcos de comportamiento explícitos en los entrenamientos de modelos de IA.
Conclusión
El experimento de Anthropic ha dejado una sensación incómoda, que deja preguntas que invitan a un análisis profundo sobre el entrenamiento de modelos de Inteligencia artificial. ¿Todas las empresas tienen este nivel de conciencia al realizar el entrenamiento de sus modelos de IA?