AI BENCHY Compare

Mistral: Mistral Small 4 vs OpenAI: gpt-oss-120b

Сводка

Сравнение benchmark Mistral Small 4 (medium) vs gpt-oss-120b: Mistral Small 4 (medium) лидирует по среднему баллу: 5.1 vs 4.0. gpt-oss-120b имеет более низкую стоимость benchmark: $0.010 vs $0.068. Mistral Small 4 (medium) быстрее: 9.40s vs 21.61s, с долей успешных попыток 44.4% vs 34.9%.

Рекомендуемая модель: Mistral Small 4 (medium) - Здесь у него лучший балл (5.1), и он отвечает примерно в 2.3 раза быстрее, чем gpt-oss-120b.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-09

Метрика	Mistral Small 4 Mistral Small 4 medium Релиз: 2026-03-16	gpt-oss-120b gpt-oss-120b none Релиз: 2025-08-05 Бесплатно доступно

Метрика	Mistral Small 4 Mistral Small 4 medium Релиз: 2026-03-16	gpt-oss-120b gpt-oss-120b none Релиз: 2025-08-05 Бесплатно доступно
Оценка	5.1	4.0
Ранг	#152	#183
Надежность	10.0	10.0
Стабильность	6.9	8.2
Тестов верно
Доля успешных попыток	44.4%	34.9%
Нестабильные тесты	8	2
Всего запусков	63	57
Стоимость за результат	1.344	0.168
Общая стоимость	$0.068	$0.010
Цена входа	$0.150 / 1M	$0.036 / 1M
Цена выхода	$0.600 / 1M	$0.180 / 1M
Общее число входных токенов	42,576	9,081
Выходные токены	24,184	51,664
Токены рассуждений	84,678	0
Время ответа (среднее)	9.40s	21.61s
Время ответа (макс.)	59.15s	113.71s
Время ответа (суммарно)	197.39s	345.79s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#152 Mistral Small 4

medium

Стоимость: $0.006
Время: 47.9s
Токены: 9,857 tok

#183 gpt-oss-120b

none

Для этой модели еще не сгенерирован результат showcase.

Стоимость: $0.000
Время: -
Токены: 0 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	5.6	3.8	66.7%	3		2.67s	708	4,055	4,778
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	1,336	8,676	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	4.4	5.1	33.3%	2		39.98s	7,636	11,635	54,715
gpt-oss-120b	1.5	4.0	22.2%	1		9.57s	901	3,232	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	3.0	10.0	0.0%	0		25.25s	18,706	2,612	10,700
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	7.3	5.9	83.3%	1		1.23s	6,171	335	723
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	2,421	598	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	5.3	7.2	44.4%	1		6.11s	742	2,621	6,904
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	1,294	29,483	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	4.8	10.0	0.0%	0		2.05s	519	821	828
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	584	615	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	7.3	5.8	83.3%	1		1.38s	729	540	1,031
gpt-oss-120b	9.8	10.0	100.0%	0		5.06s	1,043	1,940	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	3.4	9.7	0.0%	0		2.17s	735	1,226	2,632
gpt-oss-120b	6.0	7.2	55.6%	1		8.21s	1,188	3,982	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	10.0	10.0	100.0%	0		3.50s	6,420	321	810
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	3.0	10.0	0.0%	0		5.92s	210	18	1,557
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	314	3,138	0

Быстрое сравнение

Сменить пару сравнения