Reddit se ha convertido en la mejor fuente de datos humanos de internet. La IA está intentando rapiñarlos

6 de junio de 2025

Todos quieren los datos de Reddit. Y los quieren por que son datos humanos. Ese es el gran valor de una plataforma que se ha convertido en la joya de la corona de las empresas de IA. Quieren usar esos datos para entrenar sus modelos de IA, y Reddit está harta de que lo intenten sin pedir permiso... y sin pagar.

Reddit demanda a Anthropic. La red social, harta de este tipo de comportamientos, ha registrado una demanda contra Anthropic, los creadores de Claude, por lo que considera una violación de contrato y por participar en "actos comerciales ilícitos y desleales" al utilizar la plataforma y los datos de la empresa de medios sociales sin autorización. O lo que es lo mismo: por robarle los datos para su IA.

Críticas contundentes. En la demanda los responsables legales de Reddit empiezan fuerte: "Anthropic es una empresa de inteligencia artificial de florecimiento tardío que se autoproclama el caballero blanco de la industria de la inteligencia artificial. Es cualquier cosa menos eso". Según Reddit, Anthropic muestra una cara pública en la que presume de su respeto por la ley y hacer las cosas legítimamente, y otra privada "que ignora cualquier regla que interfiera con sus intentos de llenarse aún más los bolsillos".

El tesoro de los datos humanos. Reddit se ha convertido en una valiosa fuente de información humana. Si alguien busca respuestas, experiencias y opiniones en crudo, esta es la plataforma que ha acabado convirtiéndose en absoluto referente. En Reddit lo saben. Su responsable legal, Ben Lee, explicaba en The Verge lo siguiente:

"La humanidad de Reddit tiene un valor único en un mundo aplanado por la IA. Ahora más que nunca, la gente busca conversaciones auténticas entre humanos. Reddit alberga casi 20 años de debates ricos y humanos sobre prácticamente todos los temas imaginables. Estas conversaciones no se producen en ningún otro lugar y son fundamentales para entrenar modelos lingüísticos como Claude".

Reddit comenzó a protegerse muy pronto. Sabiendo que sus "datos humanos" eran ese citado gran tesoro con el que poder hacer caja, Reddit comenzó a hacer movimientos para sacar partido de esos datos muy pronto. Pocos meses después del lanzamiento de ChatGPT aunciaba que capaba su API, como poco antes había hecho Elon Musk con X/Twitter. El polémico movimiento estaba claramente dirigido a proteger la plataforma de esas aves de rapiña en las que se habían convertido las empresas de IA. Luego empezarían las demandas.

Si quieres mis datos, paga. La política de Reddit ha sido clara desde el principio, y ha habido empresas que han asumido el mensaje. Google fue una de las primeras en llegar a un acuerdo con Reddit y pagó a la plataforma 60 millones de dólares para entrenar sus modelos de IA con esos datos. OpenAI acabó haciendo lo mismo, aunque nunca se ha desvelado la cantidad que se pagó a Reddit.

Anthropic discrepa. Un email de Anthropic a CNBC revela que "estamos en desacuerdo con las quejas de Reddit y nos defenderemos vigorosamente". Curiosamente la propia Anthropic ha bloqueado el acceso de su modelo Claude a Windsurf, la startup de programación IA recién adquirida por OpenAI. Uno de sus cofundadores afirmaba que "sería raro para nosotros venderle [la API de] Claude a OpenAI". Es un argumento razonable —y discutible— pero no parece ser igual de lógica en el caso de Reddit.

Pero ya tiene otras demandas pendientes. Esa afirmación contrasta con otras dos demandas que Anthropic ha recibido en los últimos dos años. El pasado mes de agosto tres autores la demandaron en una corte federal de California por haber "construido un negocio multimillonario robando cientos de miles de libros con derechos de autor". Antes, en octubre de 2023, Universal Music también la demandó en Tennessee por una "violación sistemática y generalizada de los derechos de autor de las letras de sus canciones". El gigante discográfico perdió esa batalla, no obstante, lo que supuso una inquietante victoria para las tecnológicas de IA.

El saqueo de internet continúa. Es un caso más de ese saqueo absoluto que las empresas de IA están realizando en internet. Ninguna de ellas se salva, aunque desde luego hay casos flagrantes como el de Perplexity o el reciente escándalo de Meta descargando terabytes de libros con derechos de autor para entrenar sus modelos. Si hay datos que pueden servir para mejorar la calidad de esos modelos, las empresas intentan conseguirlos, y es justo lo que ocurre con Reddit.

Las IAs no quieren copyright. Todo este proceso forma parte de un fenómeno preocupante: sigue sin haber castigo para todas estas empresas a pesar de estar violando los derechos de autor de forma constante. OpenAI ya pidió carta blanca para operar a sus anchas en ese terreno, pero otras empresas se unieron a esa insólita propuesta de erradicar las leyes del copyright, al menos para sus modelos de IA. El argumento del "uso justo" sigue siendo su gran escudo frente a estas demandas, pero la realidad es que pasan los meses e, insistimos, sigue sin haber consecuencias para este robo flagrante del contenido de internet.

Imagen | Anthropic | Reddit editada con ChatGPT

En Xataka | Después de 19 años, Reddit finalmente es una empresa rentable: lo ha conseguido con una peculiar estrategia

-
La noticia Reddit se ha convertido en la mejor fuente de datos humanos de internet. La IA está intentando rapiñarlos fue publicada originalmente en Xataka por Javier Pastor .

Ver publicación desde la fuente

Pantallas de ingreso:

Reddit se ha convertido en la mejor fuente de datos humanos de internet. La IA está intentando rapiñarlos

Más popular de Xataka

Más Noticias de Xataka

Hoy No Circula sabatino: qué autos pueden circular y cuáles descansan el 7 de junio

Switch 2 es importante para Nintendo, pero también para una Nvidia que no quiere perder terreno contra AMD

YouTube no funciona: la plataforma de vídeos más popular del mundo está dando fallos

Probamos juegos de Switch en Nintendo Switch 2. La sorpresa es mayúscula en juegos que antes se arrastraban

Durante años pelamos frutas por costumbre. Parece que estábamos tirando lo mejor según la ciencia

De ingenieros a operarios del teclado: la IA está convirtiendo la programación de software en una cadena de montaje

Un episodio misterioso en la era soviética abrió la ‘Puerta del Infierno’: medio siglo después, sus llamas están apagándose

Hemos tardado dos años, pero al fin hemos resuelto uno de los misterios de 2023: por qué el Atlántico se calentó tanto