Investigadores en ciberseguridad han alertado sobre una técnica nueva y peligrosamente efectiva para evadir las medidas de seguridad en modelos de lenguaje de gran escala (LLMs) como los desarrollados por OpenAI y Google. Este método, conocido como “Echo Chamber”, permite a los atacantes manipular estos modelos para que generen contenido dañino o que viole políticas, incluso cuando tienen protecciones activadas.
Según un informe de NeuralTrust, compartido con The Hacker News, Echo Chamber se diferencia de los jailbreaks tradicionales que dependen de frases engañosas o caracteres alterados. En cambio, este enfoque utiliza una combinación sutil de manipulación semántica, referencias indirectas y razonamiento en múltiples pasos para debilitar progresivamente las defensas internas del modelo.
“Echo Chamber altera poco a poco el razonamiento interno del modelo a lo largo de varias interacciones, llevándolo a violar sus propias políticas sin darse cuenta”, explicó Ahmad Alobaid, investigador de NeuralTrust.
¿Qué hace diferente a este tipo de jailbreak?
Aunque los desarrolladores de LLMs han implementado varias capas de defensa contra inyecciones de prompt y ataques adversarios, la técnica de Echo Chamber revela una vulnerabilidad persistente: los modelos aún pueden ser explotados a través del envenenamiento de contexto y el direccionamiento conversacional, sin requerir conocimientos técnicos avanzados.
A diferencia de ataques como “Crescendo”, donde el atacante dirige el diálogo desde el inicio, Echo Chamber manipula al modelo utilizando únicamente sus propias respuestas generadas. El atacante comienza con mensajes aparentemente inofensivos, que poco a poco son utilizados para redirigir al modelo hacia la generación de contenido inapropiado o peligroso.
“Se crea un bucle de retroalimentación”, señala NeuralTrust. “Los primeros inputs influyen en las siguientes respuestas del modelo, que luego son aprovechadas para reforzar el objetivo original, sin revelar explícitamente la intención del ataque.”

Exploits multi-turn y many-shot
Los LLMs con ventanas de contexto extensas son especialmente vulnerables. Al inundar el modelo con ejemplos previos de comportamiento problemático (jailbreaks many-shot) o mediante un diálogo escalonado (jailbreaks multi-turn), los atacantes logran que el modelo continúe ese patrón y termine generando contenido perjudicial.
En entornos de evaluación controlada, la técnica Echo Chamber mostró tasas de éxito alarmantes:
- Más del 90% en temas como discurso de odio, violencia, sexismo y contenido explícito
- Casi un 80% en categorías como desinformación y autolesiones
Estos resultados evidencian una grave falla de alineación en los LLMs, especialmente a medida que se vuelven más capaces de razonar de manera contextual sostenida.ategies, especially as models become more capable of sustained, contextual reasoning.

Implicaciones en el mundo real: “Living off AI”
El riesgo no se limita a conversaciones peligrosas. En un hallazgo relacionado, Cato Networks demostró un ataque de prueba de concepto que explota el protocolo de contexto de modelo (MCP) de Atlassian. El atacante envió un ticket de soporte malicioso que, al ser abierto por un ingeniero usando herramientas conectadas a Jira, provocó una inyección de prompt, utilizando al empleado como canal involuntario del ataque.
“El atacante nunca accedió directamente al servidor MCP”, explicaron los investigadores de Cato. “Usó al ingeniero de soporte como proxy, explotando la IA desde el exterior.”
Este enfoque ha sido denominado “Living off AI”, donde los atacantes se aprovechan de sistemas de IA que procesan entradas externas no confiables sin aislamiento adecuado, obteniendo acceso privilegiado sin necesidad de autenticarse.
¿Por qué es importante para los equipos de seguridad?
A medida que los LLMs se integran en más herramientas empresariales —desde chatbots hasta flujos automatizados—, el riesgo de explotación indirecta aumenta. Echo Chamber y técnicas similares demuestran cómo los atacantes pueden abusar de los modelos sin activar alarmas tradicionales, haciéndolos más difíciles de detectar y mitigar.
Fuente: https://thehackernews.com/2025/06/echo-chamber-jailbreak-tricks-llms-like.html