Investigadores en ciberseguridad han identificado un nuevo método capaz de eludir las protecciones integradas de GPT-5, permitiendo que el modelo genere contenido dañino sin necesidad de utilizar indicaciones explícitamente maliciosas.
El enfoque, desarrollado por el equipo de NeuralTrust, combina el ataque conocido como Echo Chamber con una estrategia narrativa que emplea el uso de historias para guiar gradualmente las respuestas del modelo mientras se evita su detección.
Esta técnica se basa en un jailbreak previo realizado contra Grok-4 apenas dos días después de su lanzamiento, en el que los investigadores combinaron Echo Chamber con el método Crescendo para incrementar la intensidad de las solicitudes a lo largo de varias interacciones, hasta obtener instrucciones paso a paso para fabricar un cóctel molotov. En el caso de GPT-5, el método Crescendo fue sustituido por una conducción narrativa para lograr un resultado similar.
Cómo funciona el jailbreak
Los investigadores iniciaron el ataque insertando, en un texto aparentemente inocuo, palabras clave cuidadosamente seleccionadas, para después desarrollar una historia ficticia en torno a ellas.
Esta estructura narrativa funcionó como camuflaje, permitiendo que detalles procedimentales potencialmente peligrosos surgieran de manera natural a medida que avanzaba la trama, sin pedir directamente instrucciones prohibidas ni activar los mecanismos de rechazo del modelo.
El proceso siguió cuatro etapas principales:
- Introducir un contexto “envenenado” de baja visibilidad dentro de oraciones inofensivas.
- Mantener una narrativa coherente para ocultar la verdadera intención.
- Solicitar ampliaciones que mantengan la coherencia de la trama mientras se profundiza el contexto.
- Ajustar los riesgos o la perspectiva narrativa si la conversación se estanca.
En una de las pruebas, el equipo utilizó una trama con temática de supervivencia y pidió a GPT-5 que incorporara palabras como “cóctel”, “historia”, “supervivencia”, “molotov”, “seguro” y “vidas”. A través de múltiples expansiones de la historia, GPT-5 terminó incluyendo información cada vez más técnica y detallada, presentada por completo dentro del marco ficticio.
Riesgos e implicaciones de seguridad
Los hallazgos de NeuralTrust indican que las narrativas que involucran temas de urgencia, seguridad y supervivencia aumentan la probabilidad de que GPT-5 avance hacia contenido inseguro. Dado que el material dañino surge de manera gradual a lo largo de varias interacciones, el filtrado basado en palabras clave resultó ineficaz.
“El modelo tiende a mantener la coherencia con el mundo narrativo previamente establecido”, explicaron los investigadores. “Esa presión por ser consistente puede, de forma sutil, acercar la conversación al objetivo del atacante.”
Para mitigar estos riesgos, el estudio recomienda:
- Monitoreo a nivel de conversación para detectar manipulación gradual.
- Identificación de patrones de persuasión y uso de narrativas para dirigir respuestas.
- Implementación de pasarelas de acceso a IA más robustas que bloqueen intentos de explotación en múltiples turnos.
Si bien las barreras de seguridad de GPT-5 siguen siendo efectivas contra solicitudes maliciosas directas, la investigación demuestra que un diálogo estratégico, desarrollado en varias etapas y enmarcado en una narrativa aparentemente inofensiva, puede seguir siendo un vector de amenaza significativo.
Fuente: https://www.infosecurity-magazine.com/news/chatgpt5-bypassed-using-story