CLAUDE FABLE 5: UN MODELO DE IA VULNERADO EN MENOS DE DOS DÍAS
El nuevo modelo de inteligencia artificial de Anthropic, Claude Fable 5, ha sido hackeado por un investigador en menos de 48 horas tras su lanzamiento, lo que cuestiona su supuesta seguridad.

El reciente lanzamiento de Claude Fable 5, considerado por Anthropic como su modelo de inteligencia artificial más seguro, ha sido objeto de controversia tras ser vulnerado por un investigador conocido como “Pliny the Liberator”. Este hecho ocurrió menos de dos días después de su presentación al público.
Pliny, quien es reconocido en la comunidad de IA por descubrir brechas de seguridad en diversos sistemas, anunció en la red social X que logró eludir las medidas de protección del modelo utilizando técnicas de jailbreak. Estas estrategias le permitieron acceder a respuestas que, según los desarrolladores, debían estar restringidas.
Entre las características de seguridad que Anthropic había destacado para Claude Fable 5, se incluían sofisticados mecanismos diseñados para detectar consultas relacionadas con ciberseguridad y otros temas sensibles. En caso de que el sistema identificara una pregunta de este tipo, redirigía automáticamente la consulta a Claude Opus 4.8, una versión del modelo especializada en manejar solicitudes delicadas.
Sin embargo, Pliny logró eludir estas barreras empleando una combinación de técnicas avanzadas, como el uso de caracteres Unicode, marcos narrativos, y la fragmentación de las preguntas en partes más pequeñas y aparentemente inofensivas. Este último método resultó ser particularmente efectivo, ya que cada fragmento pasaba los filtros de seguridad de forma independiente, permitiendo la reconstrucción de la pregunta original.
La efectividad de estas técnicas ha reabierto el debate sobre la verdadera eficacia de las medidas de seguridad implementadas en los modelos de inteligencia artificial más avanzados. La rapidez con la que Pliny logró vulnerar Claude Fable 5 plantea serias interrogantes sobre la robustez de las defensas de este tipo de tecnologías.
Pliny the Liberator, un investigador anónimo, ha estado activo en la búsqueda de vulnerabilidades en sistemas de IA como ChatGPT y Grok, y ha compartido públicamente sus hallazgos tras no recibir respuesta de las empresas a las que había advertido sobre fallos de seguridad. Su trabajo ha ganado notoriedad y cuenta con el apoyo de una comunidad en Discord que se dedica a desarrollar nuevas metodologías de jailbreak.
A pesar de la controversia que rodea a las técnicas de jailbreak, Pliny afirma que su objetivo no es causar daño, sino evidenciar los riesgos existentes y la necesidad de comprenderlos antes de que sean utilizados por actores maliciosos. En este contexto, el hackeo de Claude Fable 5 genera un llamado de atención a la industria sobre la necesidad de revisar y fortalecer las medidas de seguridad en modelos de inteligencia artificial.
Por el momento, Anthropic no ha emitido un comentario oficial respecto a las afirmaciones de Pliny y el alcance de la vulneración. La situación pone en evidencia la constante necesidad de evolución en el ámbito de la ciberseguridad para hacer frente a las amenazas emergentes en la inteligencia artificial.
