AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs OpenAI: GPT-5 Mini

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-01

Метрика	DeepSeek V3.2 DeepSeek V3.2 medium Релиз: 2025-12-01	GPT-5 Mini GPT-5 Mini medium Релиз: 2025-08-07

Метрика	DeepSeek V3.2 DeepSeek V3.2 medium Релиз: 2025-12-01	GPT-5 Mini GPT-5 Mini medium Релиз: 2025-08-07
Оценка	6.9	7.2
Ранг	#81	#73
Надежность	10.0	10.0
Стабильность	7.9	9.1
Тестов верно
Доля успешных попыток	63.3%	61.7%
Нестабильные тесты	6	2
Всего запусков	60	60
Стоимость за результат	0.335	1.348
Общая стоимость	$0.037	$0.149
Цена входа	$0.252 / 1M	$0.250 / 1M
Цена выхода	$0.378 / 1M	$2.000 / 1M
Выходные токены	7,177	6,723
Токены рассуждений	68,297	63,082
Время ответа (среднее)	53.34s	23.75s
Время ответа (макс.)	189.03s	88.15s
Время ответа (суммарно)	1066.71s	475.03s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	8.7	10.0	83.3%	1		24.23s	3,247	6,953
GPT-5 Mini	7.1	7.6	66.7%	1		13.86s	1,715	6,378

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	3.9	5.8	33.3%	1		184.97s	640	21,230
GPT-5 Mini	10.0	10.0	100.0%	0		30.74s	580	12,544

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	10.0	10.0	100.0%	0		93.11s	571	6,296
GPT-5 Mini	10.0	10.0	100.0%	0		88.15s	754	11,520

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	207	7,693
GPT-5 Mini	10.0	10.0	100.0%	0		12.58s	453	3,200

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	2.9	4.4	22.2%	2		24.27s	21	6,838
GPT-5 Mini	3.6	7.2	22.2%	1		44.63s	293	14,016

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	3.4	2.5	33.3%	1		58.29s	49	2,189
GPT-5 Mini	4.5	10.0	0.0%	0		13.50s	349	1,856

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	1,397	2,845
GPT-5 Mini	10.0	10.0	100.0%	0		11.59s	310	3,968

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	7.0	7.2	55.6%	1		37.69s	518	6,375
GPT-5 Mini	5.6	9.8	33.3%	0		15.20s	1,622	6,144

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	507	859
GPT-5 Mini	10.0	10.0	100.0%	0		18.64s	487	1,600

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	3.0	10.0	0.0%	0		83.99s	20	7,019
GPT-5 Mini	3.0	10.0	0.0%	0		9.99s	160	1,856

Быстрое сравнение

Сменить пару сравнения

GPT-5 MinimediumvsStep 3.7 Flashhigh Ring-2.6-1TnonevsGPT-5 Minimedium GPT-5 MinimediumvsQwen3.6 Max Previewnone Claude Opus 4.8nonevsGPT-5 Minimedium Claude Sonnet 4.6nonevsDeepSeek V3.2medium Claude Sonnet 4.6nonevsGPT-5 Minimedium DeepSeek V3.2mediumvsQwen3.6 Max Previewnone DeepSeek V3.2mediumvsGemma 4 31BnoneБесплатно доступно GPT-5 MinimediumvsStep 3.7 Flashlow DeepSeek V3.2mediumvsStep 3.7 Flashhigh DeepSeek V3.2mediumvsGemini 3.1 Flash Liteminimal Gemini 3.1 Flash LitelowvsGPT-5 Minimedium