
La seguridad de la IA acaba de pasar una prueba real a gran escala. A principios de junio de 2026, un fallo descubierto en un modelo de Anthropic provocó un bloqueo inédito a la exportación y, después, la creación de una escala común de gravedad entre los mayores laboratorios de IA. Para un directivo de pyme que confía cada día más datos a herramientas de IA, este episodio ofrece por fin criterios concretos para elegir un proveedor con confianza.
En resumen
- Investigadores de Amazon descubrieron a principios de junio de 2026 una técnica de evasión (jailbreak) en Fable 5, un modelo de Anthropic, capaz de generar código que explota vulnerabilidades de software.
- El Departamento de Comercio de Estados Unidos impuso el 12 de junio de 2026 controles a la exportación de Fable 5 y Mythos 5; se levantaron el 30 de junio, tras 18 días, una vez desplegado un nuevo filtro de seguridad (fuente: Anthropic, The Hacker News).
- Anthropic, junto con Amazon, Microsoft y Google, propone ahora una escala común de gravedad de jailbreaks, la Cyber Jailbreak Severity Scale (CJS), inspirada en el estándar CVSS que se usa en ciberseguridad desde 2005.
- Esta coordinación se enmarca en una orden ejecutiva presidencial estadounidense del 2 de junio de 2026, que crea un circuito voluntario de revisión antes de lanzar al mercado los modelos más potentes, con acceso anticipado para las agencias federales.
- Para una pyme, la lección es concreta: la madurez en seguridad (programa de reporte de vulnerabilidades, filtro de seguridad, plazo de corrección) se vuelve un criterio de elección tan importante como el precio o el rendimiento.
Qué pasó en Anthropic
A principios de junio de 2026, investigadores de Amazon identificaron una técnica de evasión, un "jailbreak", en Fable 5, uno de los modelos más avanzados de Anthropic. Un jailbreak es una manipulación que empuja a un modelo de IA a saltarse sus propias salvaguardas para producir un contenido normalmente bloqueado: en este caso, código capaz de explotar vulnerabilidades de software.
El 12 de junio de 2026, el Departamento de Comercio de Estados Unidos reaccionó imponiendo controles a la exportación de Fable 5 y su modelo gemelo Mythos 5, suspendiendo su distribución fuera del país. Anthropic trabajó entonces en una corrección: un nuevo clasificador de seguridad capaz de reconocer y bloquear la técnica identificada.
Principios de junio de 2026
Descubrimiento del fallo
12 de junio de 2026
Controles a la exportación
26 de junio de 2026
Levantamiento parcial
30 de junio de 2026
Levantamiento completo
1 de julio de 2026
Redespliegue
Un dato relevante para la neutralidad del tema: Anthropic afirma que la misma técnica también funcionaba en modelos rivales menos protegidos, entre ellos GPT-5.5 de OpenAI y Kimi K2.7, del laboratorio chino Moonshot AI (fuente: The Hacker News). El riesgo de jailbreak no es, por tanto, exclusivo de un proveedor: afecta a toda la industria de la IA generativa.
La Cyber Jailbreak Severity Scale (CJS), una nota de seguridad común
La Cyber Jailbreak Severity Scale (CJS) es una escala común que proponen Anthropic, Amazon, Microsoft y Google para calificar la gravedad de un jailbreak según cuatro criterios, de forma parecida a como el estándar CVSS califica la gravedad de una vulnerabilidad de software clásica desde 2005.
| Criterio evaluado | Qué mide |
|---|---|
| Ganancia de capacidad | Cuánto amplía el jailbreak las capacidades del modelo más allá de sus herramientas ya conocidas |
| Alcance | El número de tipos de ataque distintos que la misma técnica permite lanzar |
| Facilidad de conversión en arma | El nivel de habilidad y esfuerzo necesario para convertir el fallo en un ataque operativo |
| Facilidad de descubrimiento | Lo fácil que resulta encontrar o reproducir la técnica por parte de un tercero |
Estos cuatro criterios, combinados, generan una nota que va de CJS-0 (informativo) a CJS-4 (crítico). Para los casos más graves, por ejemplo un ataque contra una red eléctrica o un sistema bancario, Anthropic se compromete a desplegar una corrección en cuanto se confirme la gravedad.
Para recordar
La CJS todavía no es un estándar obligatorio: es una propuesta voluntaria de Anthropic, respaldada por Amazon, Microsoft y Google. Se espera un anuncio que formalice un marco común desde la primera semana de agosto de 2026, según el Financial Times (2 de julio de 2026).
Por qué los gigantes de la IA coordinan ahora su seguridad
El 2 de junio de 2026, una orden ejecutiva presidencial estadounidense sobre IA y ciberseguridad creó un circuito voluntario de revisión previa al lanzamiento para los modelos considerados más potentes, llamados "covered frontier models". Este circuito da a las agencias federales, entre ellas la NSA y la CISA a través del Center for AI Standards and Innovation (CAISI), hasta 30 días de acceso anticipado antes de la difusión pública de un nuevo modelo.
Fable 5 aún no había pasado por este circuito voluntario, así que el gobierno estadounidense usó los controles a la exportación como respuesta rápida. El secretario de Comercio, Howard Lutnick, señaló que su departamento había "dedicado dos semanas a revisar los modelos con Anthropic" antes de levantar las restricciones (fuente: The Hacker News). Anthropic también abrió un programa de reporte de vulnerabilidades a través de HackerOne, abierto a investigadores externos.
Antes de junio de 2026
Cada laboratorio de IA gestionaba los fallos de seguridad a su manera, sin escala común ni plazo de corrección compartido entre competidores.
Desde julio de 2026
Anthropic, Amazon, Microsoft y Google avanzan hacia una escala común de gravedad (CJS), un programa de reporte compartido y un acceso anticipado de las autoridades estadounidenses a los modelos más potentes.
Qué cambia esto en concreto para una pyme
Este episodio ofrece a un directivo de pyme una guía sencilla para juzgar la madurez en seguridad de un proveedor de IA, más allá del precio o del rendimiento anunciado.
Preguntar por el programa de seguridad
Revisar el historial de incidentes
Verificar la gobernanza de accesos
Seguir los próximos anuncios
Preguntas frecuentes
¿Qué es un jailbreak de IA?
Un jailbreak es una técnica, a menudo un prompt o una secuencia de instrucciones, que empuja a un modelo de IA a saltarse sus propias salvaguardas para producir un contenido normalmente bloqueado, como código malicioso o información sensible.
¿Es obligatoria la Cyber Jailbreak Severity Scale para los proveedores de IA?
No, todavía no. Es una propuesta voluntaria liderada por Anthropic junto con Amazon, Microsoft y Google. Se espera un marco más formal, ligado a la orden ejecutiva presidencial estadounidense del 2 de junio de 2026, desde la primera semana de agosto de 2026, según el Financial Times.
¿Significa este incidente que las IA de uso general no son seguras para una pyme?
No. Al contrario, demuestra que un proceso de detección, corrección y coordinación entre laboratorios funciona: el fallo se encontró, se corrigió en pocas semanas y de ahí surgió un estándar común. El riesgo cero no existe, pero la respuesta fue rápida y transparente.
¿Cómo puede una pyme evaluar la seguridad de un proveedor de IA antes de firmar?
Comprobando si existe un programa de reporte de vulnerabilidades, el historial de comunicación del proveedor durante incidentes, y la claridad de los compromisos contractuales sobre plazos de corrección. Son preguntas que se pueden plantear directamente al proveedor o a tu integrador.
Conclusión
El episodio de Fable 5 recuerda una regla sencilla: la seguridad de un modelo de IA nunca queda resuelta de una vez por todas, se construye a través de incidentes, correcciones y, ahora, estándares compartidos entre competidores. Para una pyme, es una buena noticia con matices: la industria se está organizando, pero la vigilancia sigue siendo necesaria. Para profundizar en la gobernanza de tus herramientas de IA en el día a día, consulta nuestros recursos sobre cómo gestionar la IA en la empresa o descubre cómo otras pymes estructuraron su adopción de la IA en nuestros casos de éxito.


