por Xataka
6 de junio de 2025
Todos quieren los datos de Reddit. Y los quieren por que son datos humanos. Ese es el gran valor de una plataforma que se ha convertido en la joya de la corona de las empresas de IA. Quieren usar esos datos para entrenar sus modelos de IA, y Reddit está harta de que lo intenten sin pedir permiso... y sin pagar.
Reddit demanda a Anthropic. La red social, harta de este tipo de comportamientos, ha registrado una demanda contra Anthropic, los creadores de Claude, por lo que considera una violación de contrato y por participar en "actos comerciales ilícitos y desleales" al utilizar la plataforma y los datos de la empresa de medios sociales sin autorización. O lo que es lo mismo: por robarle los datos para su IA.
Críticas contundentes. En la demanda los responsables legales de Reddit empiezan fuerte: "Anthropic es una empresa de inteligencia artificial de florecimiento tardío que se autoproclama el caballero blanco de la industria de la inteligencia artificial. Es cualquier cosa menos eso". Según Reddit, Anthropic muestra una cara pública en la que presume de su respeto por la ley y hacer las cosas legítimamente, y otra privada "que ignora cualquier regla que interfiera con sus intentos de llenarse aún más los bolsillos".
El tesoro de los datos humanos. Reddit se ha convertido en una valiosa fuente de información humana. Si alguien busca respuestas, experiencias y opiniones en crudo, esta es la plataforma que ha acabado convirtiéndose en absoluto referente. En Reddit lo saben. Su responsable legal, Ben Lee, explicaba en The Verge lo siguiente:
"La humanidad de Reddit tiene un valor único en un mundo aplanado por la IA. Ahora más que nunca, la gente busca conversaciones auténticas entre humanos. Reddit alberga casi 20 años de debates ricos y humanos sobre prácticamente todos los temas imaginables. Estas conversaciones no se producen en ningún otro lugar y son fundamentales para entrenar modelos lingüísticos como Claude".
Reddit comenzó a protegerse muy pronto. Sabiendo que sus "datos humanos" eran ese citado gran tesoro con el que poder hacer caja, Reddit comenzó a hacer movimientos para sacar partido de esos datos muy pronto. Pocos meses después del lanzamiento de ChatGPT aunciaba que capaba su API, como poco antes había hecho Elon Musk con X/Twitter. El polémico movimiento estaba claramente dirigido a proteger la plataforma de esas aves de rapiña en las que se habían convertido las empresas de IA. Luego empezarían las demandas.
Si quieres mis datos, paga. La política de Reddit ha sido clara desde el principio, y ha habido empresas que han asumido el mensaje. Google fue una de las primeras en llegar a un acuerdo con Reddit y pagó a la plataforma 60 millones de dólares para entrenar sus modelos de IA con esos datos. OpenAI acabó haciendo lo mismo, aunque nunca se ha desvelado la cantidad que se pagó a Reddit.
Anthropic discrepa. Un email de Anthropic a CNBC revela que "estamos en desacuerdo con las quejas de Reddit y nos defenderemos vigorosamente". Curiosamente la propia Anthropic ha bloqueado el acceso de su modelo Claude a Windsurf, la startup de programación IA recién adquirida por OpenAI. Uno de sus cofundadores afirmaba que "sería raro para nosotros venderle [la API de] Claude a OpenAI". Es un argumento razonable —y discutible— pero no parece ser igual de lógica en el caso de Reddit.
Pero ya tiene otras demandas pendientes. Esa afirmación contrasta con otras dos demandas que Anthropic ha recibido en los últimos dos años. El pasado mes de agosto tres autores la demandaron en una corte federal de California por haber "construido un negocio multimillonario robando cientos de miles de libros con derechos de autor". Antes, en octubre de 2023, Universal Music también la demandó en Tennessee por una "violación sistemática y generalizada de los derechos de autor de las letras de sus canciones". El gigante discográfico perdió esa batalla, no obstante, lo que supuso una inquietante victoria para las tecnológicas de IA.
El saqueo de internet continúa. Es un caso más de ese saqueo absoluto que las empresas de IA están realizando en internet. Ninguna de ellas se salva, aunque desde luego hay casos flagrantes como el de Perplexity o el reciente escándalo de Meta descargando terabytes de libros con derechos de autor para entrenar sus modelos. Si hay datos que pueden servir para mejorar la calidad de esos modelos, las empresas intentan conseguirlos, y es justo lo que ocurre con Reddit.
Las IAs no quieren copyright. Todo este proceso forma parte de un fenómeno preocupante: sigue sin haber castigo para todas estas empresas a pesar de estar violando los derechos de autor de forma constante. OpenAI ya pidió carta blanca para operar a sus anchas en ese terreno, pero otras empresas se unieron a esa insólita propuesta de erradicar las leyes del copyright, al menos para sus modelos de IA. El argumento del "uso justo" sigue siendo su gran escudo frente a estas demandas, pero la realidad es que pasan los meses e, insistimos, sigue sin haber consecuencias para este robo flagrante del contenido de internet.
Imagen | Anthropic | Reddit editada con ChatGPT
En Xataka | Después de 19 años, Reddit finalmente es una empresa rentable: lo ha conseguido con una peculiar estrategia
-
La noticia
Reddit se ha convertido en la mejor fuente de datos humanos de internet. La IA está intentando rapiñarlos
fue publicada originalmente en
Xataka
por
Javier Pastor
.