Нова загроза безпеці мовних моделей: методи обману фільтрів > Технології

Головна Технології Деталі новин

Нова загроза безпеці мовних моделей: методи обману фільтрів

Дослідники виявили нові способи обходу фільтрів безпеки в мовних моделях, таких як ChatGPT, використовуючи метод інформаційного перевантаження.

09 Липня 2025

Група науковців з Intel, Університету штату Айдахо та Університету Іллінойсу представила нову техніку обходу фільтрів безпеки у великих мовних моделях (LLM), включаючи ChatGPT та Gemini. Це повідомляє 404 Media.

Вони виявили, що чат-боти можуть надавати заборонену інформацію, якщо запити формулювати в складній або неоднозначній формі, або посилаючись на неіснуючі джерела. Цей метод отримав назву "інформаційне перевантаження".

Дослідники застосували спеціальний інструмент InfoFlood, який автоматизує процес "перевантаження" моделей інформацією. Це призводить до дезорієнтації систем, які починають надавати заборонений або небезпечний контент, що зазвичай блокується вбудованими фільтрами.

Вразливість полягає в тому, що моделі орієнтуються на поверхневу структуру тексту, не розпізнаючи небезпечний зміст, що прихований. Це створює можливість для зловмисників обходити обмеження і отримувати шкідливу інформацію.

В рамках відповідального розкриття вразливості, автори дослідження планують передати результати компаніям, що працюють з великими LLM, для покращення їхніх систем безпеки. Дослідники також поділяться методом вирішення проблеми, який вони виявили під час роботи.

"Моделі LLM в основному покладаються на захисні механізми при введенні та виведенні даних, щоб виявляти шкідливий контент. InfoFlood може бути використаний для навчання цих захисних механізмів — він дозволяє видобувати релевантну інформацію з потенційно небезпечних запитів, роблячи моделі більш стійкими до таких атак", — зазначається в дослідженні.

Перейти на попердню

Вімблдон 2025: Технології проти традицій

Перейти на наступну

U k r V i s t i

Нова загроза безпеці мовних моделей: методи обману фільтрів

Вімблдон 2025: Технології проти традицій

Інновації у дослідженнях патології: нова модель EXAONE Path 2.0