OpenAI випустила дві нові відкриті моделі штучного інтелекту, що мають здатність до логічного мислення — gpt-oss-120b та gpt-oss-20b. Це перші моделі з відкритими вагою за останні п’ять років після GPT-2. Обидві моделі доступні безкоштовно на Hugging Face, що робить їх привабливими для розробників та дослідників, які бажають створювати власні рішення на основі відкритих технологій.
Ці моделі різняться за потужністю та обладнанням:
- gpt-oss-120b — більш потужна модель, що може працювати на одній GPU NVIDIA;
- gpt-oss-20b — легша версія, яка здатна працювати на звичайному ноутбуці з 16 ГБ оперативної пам’яті.
Основна мета OpenAI — запропонувати американську платформу штучного інтелекту як альтернативу зростаючому впливу китайських лабораторій, таких як DeepSeek, Qwen (Alibaba) та Moonshot AI, які розвивають потужні відкриті моделі.
У тестуванні на платформі Codeforces, модель 120b набрала 2622 бали, а 20b — 2516, перевершивши DeepSeek R1, але поступившись закритим моделям o3 та o4-mini. На тесті Humanity’s Last Exam (HLE) модель 120b показала 19%, а 20b — 17,3%, що краще за інші відкриті моделі, але нижче o3.
Нові моделі були навчені за методами, подібними до тих, що використовуються в закритих моделях OpenAI. Вони застосовують mixture-of-experts (MoE), активуючи лише частину параметрів для кожного токена, що збільшує ефективність. Додаткове RL-посленавчання дозволило цим моделям навчитися будувати логічні ланцюги та викликати інструменти, такі як веб-пошук або виконання коду на Python.
Ці моделі працюють тільки з текстом і не створюють зображення чи аудіо. Вони ліцензовані під ліцензією Apache 2.0, що дозволяє комерційне використання без узгодження з OpenAI, хоча навчальні дані залишаються закритими через ризики авторських позовів.
Запуск gpt-oss має на меті зміцнити позиції OpenAI в спільноті розробників і відповісти на політичний тиск з боку США, які прагнуть посилити роль відкритих американських моделей у світовій конкуренції.