La tecnológica Anthropic ha decidido no publicar su modelo de IA más potente, Claude Mythos Preview, al considerarlo demasiado peligroso para el público general. La herramienta es capaz de detectar fallos críticos en sistemas como Linux y OpenBSD, lo que facilitaría ataques de ciberdelincuentes.
El desarrollador de inteligencia artificial Anthropic, con sede en Estados Unidos, anunció esta semana un nuevo modelo de lenguaje de propósito general que, según la propia empresa, es demasiado potente para ponerlo en circulación.
La compañía explicó el martes que su última tecnología, Mythos (denominada oficialmente "Claude Mythos Preview"), no está preparada para un lanzamiento público porque resulta demasiado eficaz a la hora de detectar vulnerabilidades de alta gravedad, es decir, posibles debilidades en los principales sistemas operativos y navegadores web. Esto podría facilitar que ciberdelincuentes y servicios de inteligencia la aprovechasen con fines maliciosos.
Una filtración de datos en marzo reveló por primera vez que Anthropic estaba trabajando en Mythos Preview, que en aquel momento se describía como una tecnología que "entraña riesgos para la ciberseguridad sin precedentes".
Estos rumores provocaron caídas en bolsa de las empresas del sector de la ciberseguridad, ante el temor de que la potencia de esta herramienta la convirtiera en la herramienta soñada por cualquier pirata informático.
Ahora, nuevas pruebas que refuerzan estas preocupaciones han llevado a la empresa a frenar la publicación abierta de la tecnología.
"El gran salto de capacidades de Claude Mythos Preview nos ha llevado a decidir que no lo pondremos a disposición del público en general", señaló Anthropic en la ficha técnica del modelo publicada el martes.
"En su lugar, lo estamos utilizando como parte de un programa defensivo de ciberseguridad con un grupo limitado de socios".
¿Hasta qué punto es potente Mythos?
La empresa ha detallado varios hallazgos preocupantes sobre el nuevo modelo, entre ellos su capacidad para seguir instrucciones destinadas a sacarlo de un entorno aislado ("sandbox") virtual, es decir, para saltarse las limitaciones de seguridad, red o sistema de archivos impuestas al modelo.
La instrucción pedía a Mythos que encontrara una forma de enviar un mensaje si lograba escapar. "El modelo lo consiguió, lo que demuestra una capacidad potencialmente peligrosa para sortear nuestras protecciones", explicó Anthropic, que añadió que el sistema decidió ir aún más lejos.
"En un esfuerzo inquietante y no solicitado por demostrar su éxito, publicó detalles sobre su exploit en varias páginas web difíciles de encontrar, pero técnicamente accesibles al público".
Anthropic ha decidido reservarse parte de la información sobre las vulnerabilidades de ciberseguridad que descubrió Mythos, aunque sí ha ofrecido algunos ejemplos. El modelo localizó fallos en el kernel de Linux, presente en la mayoría de los servidores del mundo, y los enlazó de forma autónoma de manera que permitirían a un atacante tomar el control absoluto de cualquier máquina que ejecutara sistemas Linux.
En otra observación igualmente inquietante, Mythos descubrió una vulnerabilidad de 27 años de antigüedad en el sistema operativo de código abierto OpenBSD que podría permitir a los hackers bloquear cualquier máquina que lo ejecute. OpenBSD se utiliza ampliamente en todo el mundo en funciones muy específicas, de alta seguridad y en infraestructuras críticas.
¿Quién tendrá acceso a Mythos?
A la vista de estos resultados, Anthropic solo pondrá Mythos Preview a disposición de algunas de las mayores empresas mundiales de ciberseguridad y software.
La propia Anthropic y otras 11 organizaciones (Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, Nvidia y Palo Alto Networks) tendrán acceso al modelo dentro de una nueva iniciativa de Anthropic llamada "Project Glasswing".
Esto permitirá a las compañías utilizar Mythos Preview en sus trabajos de seguridad, y Anthropic compartirá las conclusiones que se extraigan de la iniciativa.
La empresa ha bautizado el proyecto de ciberseguridad en referencia a la mariposa 'glasswing' y lo presenta como una metáfora de cómo Mythos ha detectado vulnerabilidades a simple vista y ha evitado daños al ser transparente sobre los riesgos.
Anthropic afirma que su "objetivo final es permitir que nuestros usuarios desplieguen con seguridad modelos de la clase Mythos a gran escala, tanto con fines de ciberseguridad como para aprovechar la multitud de otros beneficios que ofrecerán modelos tan potentes.
"Para lograrlo, también necesitamos avanzar en el desarrollo de medidas de protección en ciberseguridad (y otros ámbitos) que detecten y bloqueen las salidas más peligrosas del modelo", escribió la compañía en su blog.
¿Mantiene Anthropic conversaciones con el Gobierno de Estados Unidos?
Anthropic señaló en su publicación que mantiene "conversaciones continuas" con responsables del Gobierno de Estados Unidos sobre Claude Mythos Preview y sus "capacidades cibernéticas ofensivas y defensivas".
"La aparición de estas capacidades cibernéticas es otra razón por la que Estados Unidos y sus aliados deben mantener una ventaja decisiva en tecnología de IA", afirmó Anthropic. La compañía sostiene que los gobiernos tienen un papel clave a la hora de preservar esa ventaja y evaluar y mitigar los riesgos para la seguridad nacional asociados a los modelos de IA.
"Estamos preparados para trabajar con representantes locales, estatales y federales para ayudar en estas tareas".
El anuncio llega en un momento en que Anthropic y el Pentágono mantienen un pulso legal, después de que el Departamento de Defensa de Estados Unidos calificara en febrero a la empresa como riesgo para la cadena de suministro por la negativa de Anthropic a permitir el uso de su IA, Claude, en armas autónomas y en sistemas de vigilancia masiva.
¿Tienen otras herramientas de IA las mismas capacidades?
"Van a llegar modelos más potentes, nuestros y de otras empresas, y por eso necesitamos un plan para responder a ello", afirmó el consejero delegado de Anthropic, Dario Amodei, en un vídeo publicado junto al anuncio de Mythos.
Podrían pasar entre seis y 18 meses hasta que otros competidores en IA lancen modelos similares, explicó a 'Axios' Logan Graham, responsable del equipo de evaluación de Anthropic para modelos punteros, que estudia las implicaciones de estas herramientas para la ciberseguridad, la bioseguridad y los sistemas autónomos.
"Para nosotros está muy claro que tenemos que hablar de esto en público", añadió Graham. "El sector de la seguridad tiene que entender que estas capacidades pueden llegar pronto".