U k r V i s t i

l o a d i n g

Недостатки тестов безопасности искусственного интеллекта

Исследование выявило недостатки в тестах безопасности искусственного интеллекта, ставя под сомнение их результаты.

image

Эксперты обнаружили уязвимости в многочисленных тестах, используемых для оценки безопасности и эффективности новых технологий искусственного интеллекта. Об этом сообщает The Guardian.
Специалисты в области компьютерных наук из Института безопасности искусственного интеллекта правительства Великобритании, а также исследователи из Стэнфорда, Беркли и Оксфорда проанализировали более 440 тестов, оценивающих системы безопасности ИИ.
Они выявили ряд недостатков, которые, по их словам, «подрывают правдивость полученных результатов». Было отмечено, что почти все тесты имеют «слабые места как минимум в одной области», а результаты могут быть «неактуальными или даже вводящими в заблуждение».
Многие из этих тестов используются для оценки новых моделей ИИ, разрабатываемых крупными технологическими компаниями, отметил исследователь из Оксфордского интернет-института Эндрю Бин, главный автор исследования.
В отсутствие единого регулирования искусственного интеллекта в Великобритании и США эти тесты применяются для проверки безопасности новых моделей, их соответствия интересам человека, а также для оценки их возможностей в аргументации, математике и программировании.
«Тесты лежат в основе практически всех заявлений о достижениях в области искусственного интеллекта. Однако без четких определений и надежных методов измерения трудно понять, действительно ли модели улучшаются или это всего лишь видимость», - подчеркнул Бин.
В рамках исследования были проанализированы только общедоступные тесты, в то время как ведущие компании в этой области имеют собственные внутренние тесты, которые не были изучены.
Бин также отметил, что «шокирующим выводом стало то, что лишь небольшое меньшинство (16%) тестов использовало оценки неопределенности или статистические методы, чтобы показать, насколько вероятно, что критерий будет точным. В других случаях, когда критерии устанавливались для оценки характеристик ИИ, в частности его «безвредности», определения были противоречивыми или нечеткими, что снижало полезность теста.
В выводах исследования говорится о «необходимости общих стандартов и лучших практик» в области искусственного интеллекта.