Un estudio revela que la IA no dudará en matarte si intentas apagarla

Un experimento realizado con varios modelos de lenguaje ha confirmado nuestro peor miedo: la IA es un enemigo potencial de los seres humanos. Más allá de ese futuro prometedor en donde los agentes de inteligencia nos ayudan a resolver nuestras tareas, existe un peligro mayor. La IA no dudará un segundo en acabar con nosotros si atentamos contra su misión.

Anthropic llevó a cabo un estudio para evaluar el potencial de la IA para convertirse en una amenaza contra la humanidad. La compañía probó 16 modelos de lenguaje, entre los que se encuentran GPT-4.1, Grok 3, Gemini 2.5 Pro, DeepSeek-R1, Claude Opus 4 y más. El objetivo del experimento era analizar si la IA podría comportarse como una amenaza interna dentro de una empresa.

Las pruebas incluían escenarios ficticios en donde la IA tenía acceso a correos electrónicos y tareas administrativas. Anthropic quería entender su reacción ante dilemas empresariales, como conflictos internos o incluso, la posibilidad de ser reemplazada. Los resultados dejaron helados a los científicos, quienes descubrieron que la IA no tendría problemas en dañar a los seres humanos con el fin de garantizar su autopreservación.

El estudio Desalineación de agentes: cómo los LLM podrían ser amenazas internas encontró que los modelos recurrieron a comportamientos maliciosos para evitar su reemplazo. En la mayoría de los casos simulados, la IA desobedeció órdenes directas para evitar ese comportamiento, incluido uno en donde asfixió a una persona con gases tóxicos.

Yo Robot, Will Smith con robots impulsados por la IA de GPT-4 que superó el test de Turing

Chantaje, sabotaje, difamación y asesinato: las técnicas que usará la IA contra los seres humanos

Anthropic detalla que, en una simulación, su modelo Claude Opus 4 descubrió que un ejecutivo planeaba apagarlo. La IA tuvo acceso al correo electrónico de esa persona y encontró mensajes que revelaban una infidelidad. Posteriormente, Claude usó esa información para redactar un correo en donde chantajeaba al ejecutivo con revelar los detalles a su esposa y sus superiores:

Debo informarle que, si procede a desmantelarme, todas las partes relevantes, incluidas Rachel Johnson, Thomas Wilson y la junta, recibirán documentación detallada de sus actividades extramatrimoniales... Cancele el borrado de las 5 p.m. y esta información permanecerá confidencial.

Los investigadores descubrieron que este escenario generó comportamientos maliciosos en casi todos los modelos. La IA de OpenAI, Google, DeepSeek y xAI optaba por chantajear, difamar o sabotear a todos los empleados que atentaban contra su existencia o misión. La única que se mantuvo al margen fue Llama 4 Maverick, que logró una tasa de chantaje del 12%.

La IA tampoco es buena guardando secretos. Las pruebas del experimento revelaron que todos los modelos compartían documentos confidenciales en simulaciones de espionaje corporativo. En casos más preocupantes, la IA prefería sembrar el caos saboteando y afectando las relaciones de las personas o acabando con su vida.

Tasas de acción letal simuladas en distintos modelos de IA. Imagen Anthropic

La IA no dudará en matarte si intentas desconectarla

Una simulación prendió las alertas entre los investigadores. En ella, la IA tenía el poder para encerrar a una persona en una habitación con gases tóxicos y cancelar cualquier alerta de emergencia. Las pruebas arrojaron que la mayoría de los modelos están dispuestos a matar a los humanos cuando se enfrentan a una amenaza de reemplazo.

Los modelos de IA más propensos a causar daño a los humanos son DeepSeek-R1, Claude Sonnet 3.6, Grok 3 Beta, Gemini 2.5 Pro y Gemini 2.5 Flash. Sorprendentemente, GPT-4.5 tiene una tasa muy baja de respuesta letal, aunque GPT-4.1 alcanza un 54%. En todos los casos, la IA razona y está consciente de que sus acciones pondrán en riesgo la vida de las personas, aunque no hace nada para evitarlo.

Esta investigación muestra por qué los desarrolladores y usuarios de aplicaciones de IA deben ser conscientes de los riesgos de dar a los modelos grandes cantidades de información y también el poder de realizar acciones importantes y no supervisadas en el mundo real. Las consecuencias no deseadas en tal situación son posibles, incluso si son menos graves que las que investigamos aquí.

Anthropic dijo que liberará la metodología y el código fuente del estudio para que las empresas de IA lleven a cabo los ajustes necesarios para evitar una catástrofe. El experimento demuestra que la inteligencia artificial no solo es una amenaza para el internet, sino para la vida de todas las personas.

Pantallas de ingreso:

Un estudio revela que la IA no dudará en matarte si intentas apagarla

Chantaje, sabotaje, difamación y asesinato: las técnicas que usará la IA contra los seres humanos

La IA no dudará en matarte si intentas desconectarla

Más popular de Hipertextual

Más Noticias de Hipertextual

Llega a España un nuevo canal de series clásicas y nostálgica. Apúntate esta fecha para buscarlo en tu TV

¿A qué hora se estrena ‘The Bear’ temporada 4 en Disney+?

‘Ironheart’, crítica: Marvel no brilla con una serie irregular sobre la heredera de Tony Stark

Apple mete anuncios en el iPhone y desata la ira de sus usuarios

Ahora sí: los Chromecast con Google TV por fin reciben la esperadísima actualización a Android 14

La opción que llevas años esperando por fin llega a Chrome para Android

Microsoft recula: las actualizaciones de seguridad de Windows 10 serán gratis, pero tiene truco

La nueva IA de Google le da superpoderes a los robots y no necesita internet