AI BENCHY Compare

Mistral: Mistral Small 4 vs xAI: Grok 4.20 Beta

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-17

Метрика	Mistral Small 4 Mistral Small 4 none Релиз: 2026-03-16	Grok 4.20 Beta Grok 4.20 Beta none Релиз: 2026-03-12

Метрика	Mistral Small 4 Mistral Small 4 none Релиз: 2026-03-16	Grok 4.20 Beta Grok 4.20 Beta none Релиз: 2026-03-12
Ранг	#61	#58
Оценка	5.3	5.3
Стабильность	9.5	9.1
Стоимость за результат	0.108	2.240
Общая стоимость	$0.006	$0.090
Тестов верно
Доля успешных попыток	33.3%	31.4%
Нестабильные тесты	1	2
Всего запусков	51	51
Выходные токены	1,624	1,517
Токены рассуждений	0	0
Время ответа (среднее)	629ms	1.19s
Время ответа (макс.)	1.72s	6.48s
Время ответа (суммарно)	10.70s	20.22s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0
Grok 4.20 Beta	4.0	8.4	16.7%	1		597ms	251	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0
Grok 4.20 Beta	3.0	10.0	0.0%	0		6.48s	282	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		601ms	197	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0
Grok 4.20 Beta	3.0	10.0	0.0%	0		611ms	160	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0
Grok 4.20 Beta	4.8	10.0	0.0%	0		687ms	60	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.1	9.9	0.0%	0		589ms	170	0
Grok 4.20 Beta	5.9	7.2	55.6%	1		541ms	291	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

Быстрое сравнение

Сменить пару сравнения

Mistral Small 4mediumvsGrok 4.20 Betanone Mistral Small 4nonevsQwen3 Coder Nextmedium Qwen3 Coder NextmediumvsGrok 4.20 Betanone MiniMax M2.5mediumБесплатно доступноvsGrok 4.20 Betanone Mistral Small 4nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumБесплатно доступноvsMistral Small 4none Grok 4.20 BetanonevsGLM 4.7 Flashmedium gpt-oss-120bmediumБесплатно доступноvsGrok 4.20 Betanone Mistral Small 4nonevsgpt-oss-120bmediumБесплатно доступно Mistral Small 4nonevsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGrok 4.20 Betanone GPT-5 NanomediumvsGrok 4.20 Betanone