Cientos de medios bloquean al Internet Archive para frenar el entrenamiento de la IA

Una persona lee un ejemplar del New York Times - Derechos de autor Beyzanur K. /Pexels

Derechos de autor Beyzanur K. /Pexels

Publicado 01/05/2026 - 16:24 CEST•última actualización 16:46

El uso de archivos de noticias por empresas de IA podría suponer una grave vulneración de los derechos de autor, más aún con demandas abiertas contra compañías como OpenAI y Perplexity.

Unas 245 organizaciones informativas de todo el mundo en nueve países intentan bloquear los rastreadores del Internet Archive. Se trata de programas automatizados que capturan, muestran y archivan contenidos de páginas web en la interfaz pública del Internet Archive, la Wayback Machine.

El archivo alberga más de un billón de páginas web que se remontan a 1996, lo que lo convierte en uno de los mayores repositorios públicos de información del mundo. Entre ellas figuran artículos antiguos de grandes medios como 'CNN', 'The New York Times', 'The Guardian' y 'USA Today'.

Estas páginas web se utilizan con diversos fines, por ejemplo como fuentes primarias para historiadores o para demostrar cambios introducidos tras la publicación.

Varias organizaciones de noticias presionan ahora para bloquear estos rastreadores, ya que las empresas de inteligencia artificial están utilizando los contenidos del archivo para entrenar grandes modelos de lenguaje (LLM) sin ofrecer una remuneración justa ni solicitar permiso.

Más de 20 grandes medios ya bloquean ia_archiverbot, el principal rastreador web que utiliza Internet Archive para la Wayback Machine, según un análisis de la empresa de detección de IA Originality AI.

Sin embargo, al menos uno de los cuatro robots de rastreo del archivo está bloqueado por 241 sitios informativos de todo el mundo. Una parte importante de estos sitios bloqueados pertenece a USA Today Co, el mayor grupo editor de periódicos de Estados Unidos. Esto implica que cientos de publicaciones locales han quedado prácticamente fuera de los registros históricos.

Los riesgos de utilizar contenidos archivados para entrenar IA

Los contenidos periodísticos archivados proporcionan enormes cantidades de textos e imágenes de alta calidad para entrenar a gran escala modelos de IA con una redacción más humana. Este material está disponible mediante URL e interfaces de API, que permiten que diferentes programas se comuniquen entre sí y soliciten datos, actuando como un puente entre sistemas.

Esto facilita aún más que las empresas de IA accedan a los datos archivados y entren sus modelos. Otra ventaja es que los contenidos del Internet Archive ya están estructurados, atribuidos y fechados.

Gran parte de los datos del Internet Archive ya se ha localizado en conjuntos de entrenamiento clave para la IA. No obstante, esto supone un grave problema para las organizaciones informativas, que ya han demandado a empresas de IA como Perplexity y OpenAI por posibles vulneraciones de derechos de autor.

"El problema es que los contenidos del 'Times' en el Internet Archive están siendo utilizados por empresas de IA en violación de la legislación sobre derechos de autor para competir directamente con nosotros", declaró Graham James, portavoz del diario 'The New York Times', citado por 'The Next Web'.

"El 'Times' invierte una enorme cantidad de recursos en producir periodismo original y ese trabajo no debería utilizarse sin nuestro permiso". Otras organizaciones, como 'The Guardian', han optado por un enfoque más prudente y han limitado el acceso del archivo en lugar de bloquearlo por completo.

Internet Archive sostiene que son el "daño colateral"

El director de la Wayback Machine, Mark Graham, sostiene que ellos son simplemente "daño colateral" y que los verdaderos responsables son las empresas de IA que acceden a contenidos antiguos a través de las interfaces del archivo.

Sin embargo, el archivo ha adoptado sus propias medidas para limitar este uso. Entre ellas figuran la restricción de grandes descargas de determinados materiales y la limitación de la extracción automatizada en algunos casos.

Graham subrayó que el archivo funciona como un instrumento clave de preservación. Sin este, los artículos no archivados pueden modificarse sin autorización ni rendición de cuentas. Esto abarca desde cambiar o eliminar citas hasta corregir errores o reorientar afirmaciones y declaraciones oficiales.

En la actualidad, estos cambios quedan registrados en la Wayback Machine.

Todo ello ha llevado a que algunas organizaciones de noticias intenten colaborar con Internet Archive para encontrar fórmulas de compromiso aceptables que limiten el acceso en lugar de imponer bloqueos totales.

En la misma línea, la organización sin ánimo de lucro de defensa de los derechos digitales Fight for the Future ha lanzado también una petición, firmada ya por 100 periodistas en activo, para protestar contra estos bloqueos. Todo ello se produce en un momento en que los registros públicos y la propia historia están cada vez más en disputa.

Ir a los atajos de accesibilidad

Cientos de medios bloquean al Internet Archive para frenar el entrenamiento de la IA

El uso de archivos de noticias por empresas de IA podría suponer una grave vulneración de los derechos de autor, más aún con demandas abiertas contra compañías como OpenAI y Perplexity.

Los riesgos de utilizar contenidos archivados para entrenar IA

Internet Archive sostiene que son el "daño colateral"

Noticias relacionadas

Ted Turner, el fundador de 'CNN', fallece a los 87 años

Alphabet dispara sus beneficios en un 81% y lidera el buen momento de las Big Tech

Exclusiva: El gigante fintech Revolut abre su primera tienda física en Barcelona

El Danubio baja tanto que aflora un barco hundido de la II G.M.

23 millones de firmas para expulsar a Argentina del Mundial

Más de 80.700 argentinos exigen repetir la final con otro árbitro

El horror no da tregua en Venezuela, el balance sube a 5.398 muertos

Finaliza en Polonia la construcción de la Virgen más alta de Europa