После запуска ИИ-браузера Comet от Perplexity эксперты начали изучать его безопасность. Проверки, включая проверки от компании Brave, показали, что такие браузеры подвержены вредоносным запросам от мошенников, что угрожает личной безопасности пользователей. Это также подтвердило OpenAI.
Компания, недавно выпустившая браузер ChatGPT Atlas, опубликовала новый блог, в котором раскрыла обнаруженные уязвимости и меры по их устранению. OpenAI подчеркивает, что внедрение вредоносных запросов остается серьезной проблемой безопасности ИИ, поэтому необходимо постоянно улучшать защитные меры.
Внедрение вредоносных запросов, или prompt injection, – это тип атак на ИИ-агентов в браузерах, когда злоумышленники намеренно встраивают вредоносные инструкции в контент. Они могут прятаться на веб-сайтах, в электронных письмах, PDF-документах или других материалах, которые обрабатывает ИИ. Основная цель таких атак – заставить модель изменить свое поведение и выполнять команды злоумышленника вместо запросов пользователя.
Эти атаки особенно опасны тем, что часто не требуют участия человека. Пользователь может даже не подозревать, что ИИ-агент в фоновом режиме передает его личные данные мошенникам или выполняет другие действия, заложенные злоумышленниками, такие как рассылка вредоносных писем.
Для противодействия таким атакам OpenAI разработала "автоматизированного злоумышленника на основе LLM" – по сути, ИИ-бота, который имитирует действия хакера и пытается провести атаки с использованием prompt injection. Сначала этот ИИ тестирует атаки в отдельном симуляторе, чтобы увидеть, как на них реагируют браузерные агенты. Анализируя результаты, система многократно изменяет и улучшает свои атаки, чтобы лучше выявлять их в реальных условиях. Полученные данные впоследствии интегрируются в защитные механизмы.
OpenAI также продемонстрировала пример prompt injection, который был обнаружен ее ИИ и использован для усиления защиты ChatGPT Atlas. В этом сценарии злоумышленник отправил электронное письмо с скрытой инструкцией для ИИ-агента – фактически шаблоном письма о увольнении генерального директора. Позже, когда пользователь попросил написать сообщение генеральному директору о своей отсутствии, агент мог бы использовать эту инструкцию и отправить письмо об увольнении. Однако благодаря обучению система распознала, что инструкция была вредоносным внедрением запроса, и не выполнила ее без явного подтверждения пользователя.
"Природа внедрения запросов делает детерминированные гарантии безопасности сложными, но благодаря масштабированию наших автоматизированных исследований безопасности, конкурентного тестирования и укреплению циклов быстрого реагирования мы можем улучшить устойчивость и защиту модели – прежде чем ожидать реальной атаки," – говорится в блоге компании.
Несмотря на внедрение новых инструментов и мер безопасности, prompt injection остается серьезной угрозой для ИИ-браузеров. Это заставляет некоторых экспертов отрасли сомневаться в целесообразности использования таких агентных браузеров, учитывая риски для личных данных.