Más de 100 investigadores reclaman blindar los datos biológicos de alto riesgo para evitar un uso indebido de la IA que permita crear patógenos mortales.
Los modelos de inteligencia artificial (IA) aplicados a la biología dependen en gran medida de grandes volúmenes de datos biológicos, desde secuencias genéticas hasta características de patógenos. Pero cabe preguntarse si esta información debería ser de acceso universal y cómo garantizar que se utilice de forma legítima.
Más de 100 investigadores han advertido de que el acceso sin restricciones a determinados conjuntos de datos biológicos podría permitir que sistemas de IA contribuyan a diseñar o potenciar virus peligrosos, y reclaman salvaguardas más estrictas para evitar usos indebidos.
En una carta abierta (fuente en inglés), investigadores de instituciones punteras, entre ellas la Universidad Johns Hopkins, la Universidad de Oxford, la Universidad Fordham y la Universidad de Stanford, sostienen que, si bien el acceso abierto a los datos científicos ha acelerado los descubrimientos, un pequeño subconjunto de los nuevos datos biológicos entraña riesgos para la bioseguridad si se utiliza de forma malintencionada.
"Está mucho en juego en la gobernanza de los datos biológicos, ya que los modelos de IA podrían ayudar a crear graves amenazas biológicas", escriben los autores.
Los modelos de IA empleados en biología pueden predecir mutaciones, identificar patrones y generar variantes más transmisibles de patógenos pandémicos.
Los autores califican esta posibilidad como una "capacidad preocupante", que podría acelerar y simplificar la creación de patógenos biológicos transmisibles capaces de provocar pandemias humanas, o sucesos similares en animales, plantas o el medio ambiente.
Los datos biológicos deberían estar en general disponibles de forma abierta, apuntan los investigadores, pero los "datos preocupantes sobre patógenos" requieren controles de seguridad más estrictos.
"Nuestro objetivo es definir y regular los conjuntos de datos más preocupantes antes de que estén disponibles de forma generalizada para los desarrolladores de IA", señalan en el artículo, en el que proponen un nuevo marco para regular el acceso.
"En un momento dominado por modelos biológicos de IA con pesos abiertos desarrollados en todo el mundo, limitar el acceso a datos sensibles sobre patógenos a investigadores legítimos puede ser una de las vías más prometedoras para reducir riesgos", afirma Moritz Hanke, coautor de la carta desde la Universidad Johns Hopkins.
Qué están haciendo los desarrolladores
Por el momento no existe un marco universal que regule estos conjuntos de datos. Aunque algunos desarrolladores excluyen voluntariamente la información de mayor riesgo, los investigadores sostienen que deberían aplicarse normas claras y coherentes para todos.
Los desarrolladores de algunos de los principales modelos biológicos de IA, Evo, creado por investigadores del Instituto Arc, Stanford y TogetherAI, y ESM3, de EvolutionaryScale, han retirado determinadas secuencias víricas de los datos utilizados para entrenarlos.
En febrero de 2025, el equipo de EVO 2 anunció que había excluido de sus conjuntos de datos los patógenos que infectan a humanos y otros organismos complejos debido a los riesgos éticos y de seguridad, y para "anticiparse al uso de Evo en el desarrollo de armas biológicas".
EVO 2 es un modelo de IA de código abierto para biología que puede predecir los efectos de mutaciones en el ADN, diseñar nuevos genomas y descubrir patrones en el código genético.
"En este momento no existe ninguna guía respaldada por expertos sobre qué datos plantean riesgos significativos, lo que deja a algunos desarrolladores punteros tomando sus mejores decisiones y excluyendo voluntariamente datos víricos del entrenamiento", escribió en LinkedIn el investigador Jassi Panu, coautor de la carta.
Diferentes tipos de datos de riesgo
Los autores señalan que el marco propuesto solo se aplicaría a una pequeña fracción de los conjuntos de datos biológicos.
El sistema introduce un Nivel de Datos de Bioseguridad (BDL, por sus siglas en inglés) con cinco categorías para clasificar la información sobre patógenos, ordenando los datos por nivel de "riesgo" en función de su potencial para permitir que los sistemas de IA aprendan patrones víricos generales y amenazas biológicas tanto para animales como para humanos. Incluye lo siguiente.
BDL-0: datos biológicos cotidianos. No deberían tener restricciones y pueden compartirse libremente.
BLD-1: elementos víricos básicos, como secuencias genéticas. No requieren grandes controles de seguridad, pero el acceso, con usuario y contraseña, debe estar supervisado.
BLD-2: datos sobre características de virus animales, por ejemplo su capacidad para saltar de especie o sobrevivir fuera del huésped.
BLD-3: datos sobre características de virus humanos, como su transmisibilidad, los síntomas que provocan o su resistencia a las vacunas.
BLD-4: virus humanos mejorados, por ejemplo mutaciones del virus de la COVID-19 que lo hagan más contagioso. Esta categoría estaría sujeta a las restricciones más estrictas.
Garantizar un acceso seguro
Para garantizar un acceso seguro, la carta reclama herramientas técnicas específicas que permitan a los proveedores de datos verificar a los usuarios legítimos y rastrear posibles abusos.
Entre las herramientas propuestas figuran las marcas de agua, es decir la inserción de identificadores ocultos y únicos en los conjuntos de datos para detectar fácilmente filtraciones, el seguimiento del origen de los datos, registros de auditoría que documenten accesos y modificaciones con firmas a prueba de manipulaciones y biometría del comportamiento capaz de rastrear patrones de interacción únicos de cada usuario.
Los investigadores sostienen que encontrar el equilibrio adecuado entre la apertura y las restricciones de seguridad necesarias para los datos de alto riesgo será esencial a medida que los sistemas de IA se vuelvan más potentes y estén más extendidos.