Після запуску нового ШІ-браузера Comet від Perplexity, експерти почали аналізувати його безпеку. Інспекції, включаючи перевірки від компанії Brave, виявили, що такі браузери можуть бути вразливими до шкідливих запитів від зловмисників, що ставить під загрозу конфіденційність користувачів. Це також підтвердила OpenAI.
Компанія, що нещодавно запустила браузер ChatGPT Atlas, випустила новий пост у блозі, де розкрила проблему вразливостей і дії для їх усунення. OpenAI підкреслює, що атаки з використанням шкідливих запитів залишаються серйозною загрозою для безпеки ШІ, тому необхідно постійно оновлювати заходи захисту.
Атаки з використанням шкідливих запитів, або prompt injection – це особливий вид атак на ШІ-агентів у браузерах, коли зловмисники вставляють небезпечні інструкції в контент. Вони можуть бути приховані на веб-сайтах, у електронних листах, PDF-документах або в інших матеріалах, які обробляє ШІ. Основною метою таких атак є змусити модель змінити свою поведінку і виконувати команди злочинців замість запитів користувача.
Ці атаки особливо небезпечні, оскільки часто не вимагають втручання людини. Користувач навіть може не підозрювати, що ШІ-агент у фоновому режимі передає його персональні дані зловмисникам або виконує інші дії, закладені шахраями, як-от розсилання шкідливих листів.
Щоб боротися з такими атаками, OpenAI розробила "автоматизованого зловмисника на основі LLM" – по суті, ШІ-бота, який імітує дії хакера і намагається провести атаки з використанням prompt injection. Спочатку цей ШІ тестує атаки в окремому симуляторі, щоб оцінити реакцію браузерних агентів. Аналізуючи результати, система постійно вдосконалює свої атаки, щоб краще виявляти їх у реальних обставинах. Отримані дані згодом інтегруються в протидійні механізми.
OpenAI також продемонструвала приклад prompt injection, який був виявлений її ШІ і використаний для посилення захисту ChatGPT Atlas. У цьому випадку зловмисник надіслав електронного листа з прихованою інструкцією для ШІ-агента – фактично шаблоном листа про звільнення генерального директора. Пізніше, коли користувач попросив написати повідомлення для генерального директора про свою відсутність, агент міг би використати цю інструкцію і надіслати листа про звільнення. Втім, завдяки навчальному процесу система розпізнала, що інструкція була шкідливим впровадженням запиту, і не виконала її без чіткого підтвердження користувача.
"Природа атак з використанням шкідливих запитів ускладнює забезпечення безпеки, але завдяки масштабу наших досліджень, змагального тестування та зміцненню оперативної реакції ми можемо поліпшити стійкість і захист моделі ще до того, як відбудеться реальна атака," – зазначає компанія у своєму блозі.
Незважаючи на впровадження нових інструментів і заходів безпеки, prompt injection залишається серйозною загрозою для браузерів на базі ШІ. Це змушує деяких експертів ставити під сумнів використання таких агентових браузерів, беручи до уваги ризики для персональних даних.