por Hipertextual
11 de agosto de 2025
Reddit sigue tomando medidas para evitar que las empresas de IA accedan a su contenido sin consentimiento para entrenar sus modelos de lenguaje. En esta oportunidad, la plataforma ha decidido bloquear al Internet Archive para que, justamente, ya no pueda archivar sus páginas a través de la Wayback Machine.
Según publica The Verge, la empresa considera que las compañías se están aprovechando de una zona gris para seguir accediendo a las publicaciones de sus usuarios. Reddit cree que están usando las versiones archivadas a través de la Wayback Machine para scrapear su información. Es por ello que sus responsables han optado por restringirle el acceso al Internet Archive.
En adelante, Reddit solamente permitirá que el Internet Archive indexe la página principal de su versión web. En adelante, la Wayback Machine ya no podrá acceder a detalles de publicaciones, comentarios o información de perfil. De esta forma, la empresa que dirige Steve Huffman inicia un nuevo asalto contra las empresas que acceden a su contenido sin el debido permiso.
Esta no es la primera vez que Reddit pone en el punto de mira a las empresas de inteligencia artificial. A mediados del año pasado, el sitio anunció que modificaría el protocolo robots.txt para bloquear el scraping automatizado. Por entonces se dijo que Internet Archive no se vería impactado por la decisión, pero es evidente que esto ahora ha cambiado.
"Internet Archive provee un servicio a la web abierta, pero nos han advertido de instancias en las que empresas de IA violan las políticas de las plataformas, incluidas las nuestras, para extraer datos de la Wayback Machine", indicó un portavoz de Reddit a The Verge.
Reddit bloquea la Wayback Machine de Internet Archive

La Wayback Machine de Internet Archive es una herramienta extremadamente útil que permite archivar sitios web en una completa biblioteca digital. Esta cumple un rol fundamental para los esfuerzos de preservación del contenido en línea, especialmente cuando se trata de materiales con bastante antigüedad o que pertenecen a portales que ya no existen. Pero también sirve para mantener un control bastante fuerte sobre las modificaciones que se hacen en ciertas webs; en especial, cuando estas se concretan bajo el radar.
Con Reddit bloqueando la posibilidad de archivar sus contenidos, la disponibilidad de estos en la plataforma de Internet Archive disminuirá considerablemente. Es importante recordar que la empresa tiene acuerdos con Google y OpenAI para que entrenen sus IA usando sus contenidos. En tanto que poco tiempo atrás demandó a Anthropic por supuestamente extraer sus datos sin autorización, incluso después de que los responsables de Claude dijeran que ya no lo hacían.
Internet Archive fue noticia a finales del año pasado por un hackeo a la Wayback Machine. El incidente provocó la filtración de datos de millones de usuarios y dejó a la biblioteca fuera de servicio por varios días. De momento, ni la plataforma ni Brewster Kahle, su fundador, se han pronunciado respecto del bloqueo de Reddit.