Група науковців з Intel, Університету штату Айдахо та Університету Іллінойсу представила нову техніку обходу фільтрів безпеки у великих мовних моделях (LLM), включаючи ChatGPT та Gemini. Це повідомляє 404 Media.
Вони виявили, що чат-боти можуть надавати заборонену інформацію, якщо запити формулювати в складній або неоднозначній формі, або посилаючись на неіснуючі джерела. Цей метод отримав назву "інформаційне перевантаження".
Дослідники застосували спеціальний інструмент InfoFlood, який автоматизує процес "перевантаження" моделей інформацією. Це призводить до дезорієнтації систем, які починають надавати заборонений або небезпечний контент, що зазвичай блокується вбудованими фільтрами.
Вразливість полягає в тому, що моделі орієнтуються на поверхневу структуру тексту, не розпізнаючи небезпечний зміст, що прихований. Це створює можливість для зловмисників обходити обмеження і отримувати шкідливу інформацію.
В рамках відповідального розкриття вразливості, автори дослідження планують передати результати компаніям, що працюють з великими LLM, для покращення їхніх систем безпеки. Дослідники також поділяться методом вирішення проблеми, який вони виявили під час роботи.
"Моделі LLM в основному покладаються на захисні механізми при введенні та виведенні даних, щоб виявляти шкідливий контент. InfoFlood може бути використаний для навчання цих захисних механізмів — він дозволяє видобувати релевантну інформацію з потенційно небезпечних запитів, роблячи моделі більш стійкими до таких атак", — зазначається в дослідженні.