por Hipertextual
27 de agosto de 2025
Un nuevo ataque podría aprovecharse de las capacidades multimodales de Gemini y otros modelos de lenguaje para robar tus datos y compartirlos a un tercero. Investigadores han desarrollado un método que permite inyectar instrucciones ocultas en imágenes que, al ser procesadas por un sistema de IA, pueden filtrar información o ejecutar acciones no deseadas.
De acuerdo con una publicación en el blog de The Trail of Bits, investigadores de seguridad detallaron un método de ataque que permite esconder prompts maliciosos en imágenes. Las instrucciones se insertan en los archivos a través de una marca de agua invisible al ojo humano. Cuando el usuario utiliza la imagen en un sistema como Gemini CLI, Vertex AI Studio o la API de Gemini, la IA ejecutará la instrucción y filtrará los datos de la víctima.
El ataque aprovecha el escalado de imágenes, un proceso que se ejecuta de forma automática antes de que la IA analice el archivo. Al cargar una imagen en Gemini (CLI, web o la API) y en otros sistemas como Vertex AI Studio, el modelo no ve la imagen original, sino una versión escalada. Muchos modelos están entrenados con imágenes de 224 x 224 o 512 x 512 píxeles, por lo que al subir una imagen más grande, el sistema la redimensiona automáticamente para que encaje en ese formato.
Cuando se ejecutan los algoritmos de escalado en una imagen manipulada, el prompt malicioso se hace visible y el modelo ejecuta las instrucciones como si fuera un comando válido. Los prompts pueden activar herramientas como Zapier, un servicio de automatización similar a IFTTT, las cuales filtrarán la información sin necesidad de que el usuario lo confirme.
Gemini podría filtrar tus datos si cargas una imagen infectada
En múltiples pruebas, los investigadores midieron la efectividad del ataque de inyección de prompts para robar información de Google Calendar y enviarla a un correo electrónico externo. Los autores mencionan que este es uno de muchos ataques de inyección rápida que utilizan los hackers para evadir o envenenar modelos. Las pruebas anteriores mostraron que es posible filtrar datos o ejecutar código de forma remota si no se toman las medidas pertinentes.
Los tres algoritmos de escalado vulnerables son nearest neighbor, bilinear y bicubic interpolation; cada uno requiere una técnica distinta. Para inyectar prompts en las imágenes, los ingenieros utilizan una herramienta de código abierto llamada Anamorpherm, la cual emplea patrones visuales para identificar el algoritmo y ocultar el comando en las zonas oscuras de la imagen.
A primera vista, esto suena complejo para un usuario final; sin embargo, las imágenes infectadas podrían distribuirse de múltiples formas para llegar a la víctima. Si estás leyendo una web que incluye una imagen y le pides a la IA un resumen, el modelo la escalará y se ejecutará el prompt. Las imágenes maliciosas también podrían compartirse como memes en WhatsApp o a través de campañas de phishing.
Vale la pena mencionar que el ataque solo se activa cuando la imagen es procesada por una IA que realiza escalado. Si el sistema reduce la resolución antes de analizarla, o depende de que el modelo interprete la versión escalada, el prompt se ejecutará. Si la IA tiene acceso a herramientas como enviar correos o acceder a APIs, llevará a cabo las acciones sin confirmación previa
Los ingenieros recomiendan evitar subir imágenes de fuentes desconocidas a Gemini, así como revisar qué permisos tiene el asistente o app.