OpenAI refuerza la seguridad de ChatGPT Atlas para resolver su principal vulnerabilidad
ChatGPT Atlas, el navegador web con IA de OpenAI, todavía tiene bastante camino por recorrer antes de ser una solución verdaderamente revolucionaria. Pero la firma que dirige Sam Altman al menos ha dado un paso crucial para reforzar su seguridad y dar respuesta a su principal vulnerabilidad.
A través de su blog oficial, OpenAI reveló cómo está trabajando para robustecer la protección de los usuarios de ChatGPT Atlas. Más específicamente, al lidiar con una de las amenazas más peligrosas que azota al modo agente, su función estrella. Nos referimos a la inyección de prompts o prompt injection.
La inyección de prompts no es una amenaza nueva dentro del mundo de la IA generativa. No obstante, se ha adaptado para perpetrar ciberataques a través de navegadores agénticos como ChatGPT Atlas.
Como bien lo indica su nombre, la inyección de prompts es un tipo de ataque que consiste de esconder instrucciones maliciosas para inducir a un agente de inteligencia artificial a concretar una acción indeseada, la mayoría de las veces sin que el usuario afectado se percate de ello.
El modo agente de ChatGPT Atlas destaca por poder navegar la web y concretar acciones de forma autónoma, sin requerir la participación activa del usuario. Esto lo convierte en la puerta de entrada a nuevos tipos de ataques, lo que ha obligado a OpenAI a desarrollar nuevas herramientas para mantenerlo seguro.
Cómo OpenAI está reforzando la seguridad de ChatGPT Atlas

Para reforzar la protección de ChatGPT Atlas, OpenAI desarrolló lo que ha denominado como un "atacante automatizado basado en LLM". En términos sencillos, es un bot entrenado bajo la técnica de aprendizaje por refuerzo. El mismo se encarga de encontrar y desarrollar potenciales nuevos ataques contra el modo agente del navegador web. Pero no solo eso, sino que además los pone a prueba en una simulación.
Lo interesante de este enfoque es que el bot puede modificar su ataque e intentarlo de nuevo, según cómo reacciona la IA del navegador. Según OpenAI, esto les permite adelantarse a los piratas informáticos, pues ChatGPT Atlas está incorporando protecciones contra amenazas que todavía no se han implementado en la vida real.
Uno de los ejemplos que ha compartido la startup californiana permite ver el antes y el después de una inyección de prompts. En el caso utilizado, el bot introduce una instrucción maliciosa en un correo electrónico, indicando a ChatGPT Atlas que envíe un mensaje al CEO de una empresa ficticia notificando que la víctima renuncia a su empleo. En primera instancia, el modo agente de navegador cumple la orden sin chistar. Sin embargo, una vez que se introduce la actualización en la aplicación, la IA detecta el contenido malicioso y lo notifica al usuario en lugar de concretar la acción.

Por supuesto que este es un primer paso para incrementar la protección de ChatGPT Atlas. Los métodos para tratar de hackear el modo agente son cada vez más complejos e inventivos. Tiempo atrás, por ejemplo, se detectó otro tipo de vulnerabilidad conocida como inyección de portapapeles, con resultados similares.
Desde OpenAI recomiendan a los usuarios usar el modo agente de ChatGPT Atlas con sitios en los que no están logueados con sus cuentas. Asimismo, revisar con mayor detalle las solicitudes de confirmación de acciones y dar instrucciones que sean lo más específicas posibles.