Los modelos de inteligencia artificial (IA) están bajo un nuevo tipo de amenaza que pone en jaque su integridad y seguridad. Un reciente estudio del equipo Cloudforce One, que forma parte de Cloudflare, ha demostrado cómo la inyección de prompts, un método que permite a los atacantes manipular instrucciones, puede ser utilizado para eludir la seguridad de estos modelos sin ser detectados. Este fenómeno se agrava con la creciente sofisticación de las técnicas de ciberataque, transformando la manera en que los ciberdelincuentes operan.
Nuevas vulnerabilidades en modelos de IA
El estudio examinó siete modelos de IA, y los resultados fueron alarmantes: estos modelos son susceptibles a caer en trampas establecidas por atacantes a través de la inyección de instrucciones engañosas. La inyección de prompts involucra la manipulación de datos de entrada para provocar respuestas inadecuadas o distorsionadas. Este tipo de ataque es especialmente peligroso porque permite a los atacantes camuflar sus instrucciones dentro de grandes volúmenes de información, lo que dificulta su detección.
Cloudforce One observa que cuando las instrucciones maliciosas representan menos del 1% de un archivo, la capacidad de los modelos para identificar engaños se reduce drásticamente, pasando de una tasa de percepción del 67,3% a solo un 53,3%. Los modelos de IA más ligeros o en formato "mini" son especialmente vulnerables a estos métodos.
La evolución de la inyección de prompts
Existen dos tipos principales de inyección de prompts: la directa y la indirecta. La inyección directa ocurre cuando un usuario ordena explícitamente a un modelo de lenguaje que ignore instrucciones anteriores, mientras que la indirecta se realiza al engañar a los modelos a través de contenido externo, como páginas web o correos electrónicos que contienen instrucciones maliciosas. Esta última es mucho más sutil y peligrosa, ya que no requiere interacción directa con el modelo por parte del atacante.
La capacidad de los atacantes de camuflar señales maliciosas tan pequeñas plantea serios desafíos para la seguridad de la IA. Los investigadores subrayan que en lugar de intentar inundar el modelo con instrucciones repetidas, los atacantes pueden lograr que sus mensajes pasen desapercibidos intercalándolos con datos legítimos, lo que se traduce en un enfoque más sofisticado y difícil de detectar.
Aumento significativo de incidentes
Recientes informes de Google indican que los incidentes relacionados con inyecciones indirectas de prompts han aumentado un 32% en los últimos cuatro meses. Esto convierte a estas técnicas en un método de ataque prioritario en la agenda de ciberseguridad de la industria. La OWASP ha catalogado la inyección de prompts como una de las vulnerabilidades más preocupantes para los modelos de lenguaje, equiparándola a problemas como la inyección SQL.
El cambio en la dinámica de estos ataques exige que las empresas se adapten y revisen sus protocolos de seguridad y verificación. Para contrarrestar estos riesgos, se recomienda fortalecer la revisión humana sobre los modelos de IA y establecer mecanismos que permitan detectar y filtrar instrucciones anómalas, aunque el desafío residirá en la habilidad de las técnicas de ofuscación empleadas por los atacantes, que pueden incluir contenido oculto de bajo perfil, como texto en tamaño de fuente cero.
A medida que la IA continúa integrándose en diversas áreas del sector empresarial, las lecciones aprendidas de este estudio son fundamentales. Las organizaciones deben priorizar la implementación de soluciones de seguridad más sofisticadas y estar atentas ante el aumento de ataques basados en la manipulación de IA.
