AI BENCHY Compare

Owl Alpha vs xAI: Grok 4.20

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-10

Метрика	Owl Alpha Owl Alpha none Релиз: 2026-04-30	Grok 4.20 Grok 4.20 none Релиз: 2026-03-31

Метрика	Owl Alpha Owl Alpha none Релиз: 2026-04-30	Grok 4.20 Grok 4.20 none Релиз: 2026-03-31
Оценка	5.8	5.4
Ранг	#98	#115
Надежность	10.0	Н/Д
Стабильность	9.1	9.5
Тестов верно
Доля успешных попыток	43.9%	35.2%
Нестабильные тесты	2	1
Всего запусков	57	54
Стоимость за результат	0.000	1.574
Общая стоимость	$0.000	$0.095
???? ?????	$0.000 / 1M	$1.250 / 1M
???? ??????	$0.000 / 1M	$2.500 / 1M
Выходные токены	1,685	1,967
Токены рассуждений	0	0
Время ответа (среднее)	6.83s	1.11s
Время ответа (макс.)	32.27s	6.04s
Время ответа (суммарно)	129.73s	20.02s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Owl Alpha	3.4	7.9	16.7%	1		2.78s	57	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Owl Alpha	10.0	10.0	100.0%	0		32.27s	450	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	312	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Owl Alpha	3.0	10.0	0.0%	0		21.74s	315	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Owl Alpha	10.0	10.0	100.0%	0		3.60s	246	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Owl Alpha	5.3	10.0	33.3%	0		3.00s	27	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Owl Alpha	4.3	10.0	0.0%	0		4.61s	80	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Owl Alpha	6.4	10.0	50.0%	0		2.63s	63	0
Grok 4.20	6.3	10.0	50.0%	0		455ms	60	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Owl Alpha	5.9	7.2	55.6%	1		4.43s	202	0
Grok 4.20	5.3	7.2	44.4%	1		487ms	242	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Owl Alpha	10.0	10.0	100.0%	0		22.78s	231	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Owl Alpha	3.0	10.0	0.0%	0		2.50s	14	0
Grok 4.20	-	-	-	-	-	-	-	-

Быстрое сравнение

Сменить пару сравнения

CobuddymediumБесплатно доступноvsOwl Alphanone Elephant AlphamediumvsGrok 4.20none gpt-oss-120bmediumБесплатно доступноvsOwl Alphanone Mistral Small 4mediumvsGrok 4.20none MiniMax M2.5mediumБесплатно доступноvsGrok 4.20none Nemotron 3 SupermediumБесплатно доступноvsOwl Alphanone MiniMax M2.5mediumБесплатно доступноvsOwl Alphanone Mistral Small 4mediumvsOwl Alphanone MiniMax M2.7mediumvsGrok 4.20none gpt-oss-120bmediumБесплатно доступноvsGrok 4.20none GPT-5 NanomediumvsOwl Alphanone CobuddymediumБесплатно доступноvsGrok 4.20none