AI BENCHY Compare

OpenAI: gpt-oss-120b vs xAI: Grok 4.20 Beta

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-12

Метрика	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно	Grok 4.20 Beta Grok 4.20 Beta none Релиз: 2026-03-12

Метрика	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно	Grok 4.20 Beta Grok 4.20 Beta none Релиз: 2026-03-12
Ранг	#43	#52
Средний балл	5.1	4.4
Стабильность	7.4	9.1
Стоимость за результат	0.135	2.214
Общая стоимость	$0.010	$0.089
Тестов верно
Доля успешных попыток	54.2%	33.3%
Нестабильные тесты	5	2
Всего запусков	48	48
Выходные токены	13,210	1,511
Токены рассуждений	34,230	0
Время ответа (среднее)	16.65s	1.22s
Время ответа (макс.)	50.92s	6.48s
Время ответа (суммарно)	149.88s	19.53s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Общее число выходных токенов

Средний балл vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	7.0	9.8	66.7%	0		19.76s	3,463	2,077
Grok 4.20 Beta	3.3	7.9	22.2%	1		562ms	245	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072
Grok 4.20 Beta	10.0	10.0	0.0%	0		6.48s	282	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	5.5	5.9	66.7%	1		1.98s	241	1,114
Grok 4.20 Beta	9.9	10.0	100.0%	0		601ms	197	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	10.0	4.4	22.2%	2		50.92s	6,784	20,606
Grok 4.20 Beta	10.0	10.0	0.0%	0		611ms	160	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		7.90s	107	387
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	9.5	10.0	100.0%	0		7.63s	126	1,799
Grok 4.20 Beta	4.5	10.0	0.0%	0		687ms	60	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	1.7	4.7	22.2%	2		11.80s	1,508	2,092
Grok 4.20 Beta	4.0	7.2	55.6%	1		541ms	291	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	9.0	10.0	100.0%	0		6.91s	287	1,083
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

Быстрое сравнение

Сменить пару сравнения

gpt-oss-120bmediumБесплатно доступноvsQwen3.5-122B-A10Bnone Gemini 2.5 Flashnonevsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsQwen3.5-Flashnone Seed-2.0-Litenonevsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsQwen3.5-27Bnone MiniMax M2.5mediumvsGrok 4.20 Betanone gpt-oss-120bmediumБесплатно доступноvsQwen3.5-35B-A3Bnone DeepSeek V3.2nonevsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsHunter Alphanone Trinity Large PreviewnoneБесплатно доступноvsgpt-oss-120bmediumБесплатно доступно Mercury 2mediumvsGrok 4.20 Betanone Qwen3 Coder NextmediumvsGrok 4.20 Betanone