Un nuevo ataque con imágenes permite engañar a Gemini para que filtre tus datos

Un nuevo ataque podría aprovecharse de las capacidades multimodales de Gemini y otros modelos de lenguaje para robar tus datos y compartirlos a un tercero. Investigadores han desarrollado un método que permite inyectar instrucciones ocultas en imágenes que, al ser procesadas por un sistema de IA, pueden filtrar información o ejecutar acciones no deseadas.

De acuerdo con una publicación en el blog de The Trail of Bits, investigadores de seguridad detallaron un método de ataque que permite esconder prompts maliciosos en imágenes. Las instrucciones se insertan en los archivos a través de una marca de agua invisible al ojo humano. Cuando el usuario utiliza la imagen en un sistema como Gemini CLI, Vertex AI Studio o la API de Gemini, la IA ejecutará la instrucción y filtrará los datos de la víctima.

El ataque aprovecha el escalado de imágenes, un proceso que se ejecuta de forma automática antes de que la IA analice el archivo. Al cargar una imagen en Gemini (CLI, web o la API) y en otros sistemas como Vertex AI Studio, el modelo no ve la imagen original, sino una versión escalada. Muchos modelos están entrenados con imágenes de 224 x 224 o 512 x 512 píxeles, por lo que al subir una imagen más grande, el sistema la redimensiona automáticamente para que encaje en ese formato.

Cuando se ejecutan los algoritmos de escalado en una imagen manipulada, el prompt malicioso se hace visible y el modelo ejecuta las instrucciones como si fuera un comando válido. Los prompts pueden activar herramientas como Zapier, un servicio de automatización similar a IFTTT, las cuales filtrarán la información sin necesidad de que el usuario lo confirme.

Ataque de inyección de prompts en una imagen para usarse en Gemini y otras IA

Gemini podría filtrar tus datos si cargas una imagen infectada

En múltiples pruebas, los investigadores midieron la efectividad del ataque de inyección de prompts para robar información de Google Calendar y enviarla a un correo electrónico externo. Los autores mencionan que este es uno de muchos ataques de inyección rápida que utilizan los hackers para evadir o envenenar modelos. Las pruebas anteriores mostraron que es posible filtrar datos o ejecutar código de forma remota si no se toman las medidas pertinentes.

Los tres algoritmos de escalado vulnerables son nearest neighbor, bilinear y bicubic interpolation; cada uno requiere una técnica distinta. Para inyectar prompts en las imágenes, los ingenieros utilizan una herramienta de código abierto llamada Anamorpherm, la cual emplea patrones visuales para identificar el algoritmo y ocultar el comando en las zonas oscuras de la imagen.

A primera vista, esto suena complejo para un usuario final; sin embargo, las imágenes infectadas podrían distribuirse de múltiples formas para llegar a la víctima. Si estás leyendo una web que incluye una imagen y le pides a la IA un resumen, el modelo la escalará y se ejecutará el prompt. Las imágenes maliciosas también podrían compartirse como memes en WhatsApp o a través de campañas de phishing.

Vale la pena mencionar que el ataque solo se activa cuando la imagen es procesada por una IA que realiza escalado. Si el sistema reduce la resolución antes de analizarla, o depende de que el modelo interprete la versión escalada, el prompt se ejecutará. Si la IA tiene acceso a herramientas como enviar correos o acceder a APIs, llevará a cabo las acciones sin confirmación previa

Los ingenieros recomiendan evitar subir imágenes de fuentes desconocidas a Gemini, así como revisar qué permisos tiene el asistente o app.

Más Noticias de Hipertextual

Ya es posible jugar en la nube con Xbox Cloud Gaming sin pagar por Game Pass Ultimate

Pantallas de ingreso:

Un nuevo ataque con imágenes permite engañar a Gemini para que filtre tus datos

Gemini podría filtrar tus datos si cargas una imagen infectada

Más popular de Hipertextual

Más Noticias de Hipertextual

Ya es posible jugar en la nube con Xbox Cloud Gaming sin pagar por Game Pass Ultimate

Claude, el nuevo aliado de los hackers: Anthropic confirma que su IA se usó en ciberataques y estafas

Eusebio Poncela, ícono del cine y el teatro español, ha muerto a los 79 años

142 años del sonido más fuerte de la historia de la humanidad: se escuchó a casi 5.000 kilómetros de distancia

Huawei pone fecha de presentación al Mate XTs: su próximo plegable triple está a la vuelta de la esquina

Denzel Washington reconoce que ya no ve películas: «Me he cansado del cine»

Adiós a la espera: Xiaomi confirma cuándo llega HyperOS 3 a tu móvil

3 razones para entender el éxito de ‘Las guerreras k-pop’ de Netflix