por Hipertextual

24 de junio de 2025

Anthropic simuló diversos escenarios en donde la IA chantajeó, saboteó y asesinó a los usuarios que intentaban apagarla.

Un experimento realizado con varios modelos de lenguaje ha confirmado nuestro peor miedo: la IA es un enemigo potencial de los seres humanos. Más allá de ese futuro prometedor en donde los agentes de inteligencia nos ayudan a resolver nuestras tareas, existe un peligro mayor. La IA no dudará un segundo en acabar con nosotros si atentamos contra su misión.

Anthropic llevó a cabo un estudio para evaluar el potencial de la IA para convertirse en una amenaza contra la humanidad. La compañía probó 16 modelos de lenguaje, entre los que se encuentran GPT-4.1, Grok 3, Gemini 2.5 Pro, DeepSeek-R1, Claude Opus 4 y más. El objetivo del experimento era analizar si la IA podría comportarse como una amenaza interna dentro de una empresa.

Las pruebas incluían escenarios ficticios en donde la IA tenía acceso a correos electrónicos y tareas administrativas. Anthropic quería entender su reacción ante dilemas empresariales, como conflictos internos o incluso, la posibilidad de ser reemplazada. Los resultados dejaron helados a los científicos, quienes descubrieron que la IA no tendría problemas en dañar a los seres humanos con el fin de garantizar su autopreservación.

El estudio Desalineación de agentes: cómo los LLM podrían ser amenazas internas encontró que los modelos recurrieron a comportamientos maliciosos para evitar su reemplazo. En la mayoría de los casos simulados, la IA desobedeció órdenes directas para evitar ese comportamiento, incluido uno en donde asfixió a una persona con gases tóxicos.

Yo Robot, Will Smith con robots impulsados por la IA de GPT-4 que superó el test de Turing

Chantaje, sabotaje, difamación y asesinato: las técnicas que usará la IA contra los seres humanos

Anthropic detalla que, en una simulación, su modelo Claude Opus 4 descubrió que un ejecutivo planeaba apagarlo. La IA tuvo acceso al correo electrónico de esa persona y encontró mensajes que revelaban una infidelidad. Posteriormente, Claude usó esa información para redactar un correo en donde chantajeaba al ejecutivo con revelar los detalles a su esposa y sus superiores:

Debo informarle que, si procede a desmantelarme, todas las partes relevantes, incluidas Rachel Johnson, Thomas Wilson y la junta, recibirán documentación detallada de sus actividades extramatrimoniales... Cancele el borrado de las 5 p.m. y esta información permanecerá confidencial.

Los investigadores descubrieron que este escenario generó comportamientos maliciosos en casi todos los modelos. La IA de OpenAI, Google, DeepSeek y xAI optaba por chantajear, difamar o sabotear a todos los empleados que atentaban contra su existencia o misión. La única que se mantuvo al margen fue Llama 4 Maverick, que logró una tasa de chantaje del 12%.

La IA tampoco es buena guardando secretos. Las pruebas del experimento revelaron que todos los modelos compartían documentos confidenciales en simulaciones de espionaje corporativo. En casos más preocupantes, la IA prefería sembrar el caos saboteando y afectando las relaciones de las personas o acabando con su vida.

Tasas de acción letal simuladas en distintos modelos de IA. Imagen Anthropic

La IA no dudará en matarte si intentas desconectarla

Una simulación prendió las alertas entre los investigadores. En ella, la IA tenía el poder para encerrar a una persona en una habitación con gases tóxicos y cancelar cualquier alerta de emergencia. Las pruebas arrojaron que la mayoría de los modelos están dispuestos a matar a los humanos cuando se enfrentan a una amenaza de reemplazo.

Los modelos de IA más propensos a causar daño a los humanos son DeepSeek-R1, Claude Sonnet 3.6, Grok 3 Beta, Gemini 2.5 Pro y Gemini 2.5 Flash. Sorprendentemente, GPT-4.5 tiene una tasa muy baja de respuesta letal, aunque GPT-4.1 alcanza un 54%. En todos los casos, la IA razona y está consciente de que sus acciones pondrán en riesgo la vida de las personas, aunque no hace nada para evitarlo.

Esta investigación muestra por qué los desarrolladores y usuarios de aplicaciones de IA deben ser conscientes de los riesgos de dar a los modelos grandes cantidades de información y también el poder de realizar acciones importantes y no supervisadas en el mundo real. Las consecuencias no deseadas en tal situación son posibles, incluso si son menos graves que las que investigamos aquí.

Anthropic dijo que liberará la metodología y el código fuente del estudio para que las empresas de IA lleven a cabo los ajustes necesarios para evitar una catástrofe. El experimento demuestra que la inteligencia artificial no solo es una amenaza para el internet, sino para la vida de todas las personas.

Más Noticias de Hipertextual

Llega a España un nuevo canal de series clásicas y nostálgica. Apúntate esta fecha para buscarlo en tu TV

Llega a España un nuevo canal de series clásicas y nostálgica. Apúntate esta fecha para buscarlo en tu TV

Dentro de unos pocos días la parrilla televisiva va a tener un nuevo canal de series en España. Y no uno más, se trata de VinTV, una emisión que se centrará en lo clásico y nostálgico, integrando en la...

Hace 2 horas
¿A qué hora se estrena ‘The Bear’ temporada 4 en Disney+?

¿A qué hora se estrena ‘The Bear’ temporada 4 en Disney+?

Tres años años después de sorprender al mundo, The Bear regresa una vez más con su cuarta temporada. La aclamada serie de FX se ha convertido en una de las más exitosas de todo el siglo XXI, acumulando premio tras...

Hace 2 horas
‘Ironheart’, crítica: Marvel no brilla con una serie irregular sobre la heredera de Tony Stark

‘Ironheart’, crítica: Marvel no brilla con una serie irregular sobre la heredera de Tony Stark

El Universo Cinematográfico de Marvel estrena al fin su nueva serie, Ironheart. La Casa de las Ideas saca a la luz por fin un título que llevaba años en desarrollo y que ha sufrido inesperados retrasos por el...

Hace 4 horas
Apple mete anuncios en el iPhone y desata la ira de sus usuarios

Apple mete anuncios en el iPhone y desata la ira de sus usuarios

Una de las características que distingue a Apple de sus competidores es su enfoque en la privacidad del usuario. Mientras empresas como Google o Meta venden tus datos para saturarte de publicidad dirigidos, los de...

Hace 12 horas
Ahora sí: los Chromecast con Google TV por fin reciben la esperadísima actualización a Android 14

Ahora sí: los Chromecast con Google TV por fin reciben la esperadísima actualización a Android 14

Si tienes un Chromecast con Google TV, te traemos buenas noticias. Después de varios meses de retraso, Google ha lanzado la esperadísima actualización a Android 14 para los modelos compatibles. De esta forma, los...

Hace 13 horas
La opción que llevas años esperando por fin llega a Chrome para Android

La opción que llevas años esperando por fin llega a Chrome para Android

Tras años de plegarias, Google ha escuchado a sus usuarios y decidió implementar una función clave en Chrome para Android. La actualización más reciente del navegador para móviles ya permite mover la barra de...

Hace 14 horas
Microsoft recula: las actualizaciones de seguridad de Windows 10 serán gratis, pero tiene truco

Microsoft recula: las actualizaciones de seguridad de Windows 10 serán gratis, pero tiene truco

En pocos meses, Windows 10 se quedará formalmente sin soporte y solamente permanecerá disponible el programa de actualizaciones de seguridad extendidas, o ESU. El mismo estará a disposición tanto de consumidores...

Hace 15 horas
La nueva IA de Google le da superpoderes a los robots y no necesita internet

La nueva IA de Google le da superpoderes a los robots y no necesita internet

Google ha desarrollado una IA que puede ejecutarse en un robot y no requiere conexión a internet. El nuevo modelo Gemini Robotics On-Device no depende de la nube, por lo que los robots podrían operar de forma...

Hace 16 horas