Фахівці виявили вразливості в численних тестах, що використовуються для оцінки безпеки та ефективності нових технологій штучного інтелекту. Про це повідомляє The Guardian.
Експерти з комп’ютерних наук Інституту безпеки штучного інтелекту в Великій Британії, а також дослідники з університетів Стенфорда, Берклі та Оксфорда проаналізували більше 440 тестів, які оцінюють системи безпеки ШІ.
Вони виявили ряд недоліків, які, за їхніми словами, «підривають правдивість отриманих результатів». Було зазначено, що майже всі тести мають «слабкі місця в принаймні одній області», а результати можуть бути «неактуальними або навіть оманливими».
Чимало з цих тестів використовуються для оцінки нових моделей ШІ, які розробляються великими технологічними компаніями, зазначив дослідник з Оксфордського інституту Ендрю Бін, головний автор дослідження.
Без єдиного регулювання штучного інтелекту в Британії та США, ці тести застосовуються для перевірки безпечності нових моделей, їхньої відповідності людським інтересам, а також для перевірки їхніх можливостей у аргументації, математиці та програмуванні.
«Тести є основою практично всіх заяв щодо досягнень у сфері штучного інтелекту. Але без чітких визначень та надійних методів вимірювання важко зрозуміти, чи дійсно моделі вдосконалюються, чи це лише видимість», - підкреслив Бін.
У рамках дослідження були проаналізовані лише загальнодоступні тести, в той час як провідні компанії в галузі мають власні внутрішні тестування, які не були досліджені.
Бін також зазначив, що «шокуючим є те, що лише 16% тестів використовували оцінки невизначеності або статистичні методи, щоб показати, наскільки ймовірно, що критерій є точним. У випадках, коли критерії встановлювались для оцінки характеристик ШІ, зокрема його «нешкідливості», визначення терміна було спірним або нечітким, що знижувало ефективність тесту.
У висновках дослідження зазначено, що існує «термінова потреба у спільних стандартах і найкращих практиках» для штучного інтелекту.