OpenAI выпустила две новые открытые модели искусственного интеллекта, обладающие логическим мышлением — gpt-oss-120b и gpt-oss-20b. Это первые модели с открытыми весами за последние пять лет после GPT-2. Обе модели доступны бесплатно на Hugging Face, что делает их привлекательными для разработчиков и исследователей, стремящихся создавать собственные решения на основе открытых технологий.
Модели различаются по мощности и требованиям к оборудованию:
- gpt-oss-120b — более мощная модель, которая может работать на одной GPU NVIDIA;
- gpt-oss-20b — облегченная версия, способная запускаться на обычном ноутбуке с 16 ГБ оперативной памяти.
Основная цель OpenAI — предложить американскую открытую платформу ИИ как альтернативу растущему влиянию китайских лабораторий, таких как DeepSeek, Qwen (Alibaba) и Moonshot AI, которые активно развивают мощные открытые модели.
В тестировании на платформе Codeforces модель 120b набрала 2622 балла, а 20b — 2516, превзойдя DeepSeek R1, но уступив закрытым моделям o3 и o4-mini. На тесте Humanity’s Last Exam (HLE) модель 120b показала 19%, а 20b — 17,3%, что лучше, чем у других открытых моделей, но ниже, чем у o3.
Новые модели были обучены по методам, аналогичным тем, что используются в закрытых моделях OpenAI. Они используют подход mixture-of-experts (MoE), активируя лишь часть параметров для каждого токена, что увеличивает эффективность. Дополнительное RL-файн-тюнинг позволило моделям научиться строить логические цепочки и вызывать инструменты, такие как веб-поиск или выполнять код на Python.
Эти модели работают только с текстом и не генерируют изображения или аудио. Они распространяются по лицензии Apache 2.0, что позволяет коммерческое использование без согласования с OpenAI, хотя обучающие данные остаются закрытыми из-за рисков авторских исков.
Запуск gpt-oss направлен на укрепление позиций OpenAI в сообществе разработчиков и ответ на политическое давление со стороны США, стремящихся усилить роль открытых американских моделей в глобальной конкуренции.