AI BENCHY Compare

DeepSeek: DeepSeek V4 Flash vs OpenAI: gpt-oss-120b

Сводка

Сравнение benchmark DeepSeek V4 Flash vs gpt-oss-120b: gpt-oss-120b лидирует по среднему баллу: 6.1 vs 5.0. DeepSeek V4 Flash имеет более низкую стоимость benchmark: $0.008 vs $0.013. gpt-oss-120b быстрее: 22.28s vs 26.75s, с долей успешных попыток 30.2% vs 52.4%.

Рекомендуемая модель: gpt-oss-120b - У него самый высокий балл в этом сравнении (6.1) и лучший общий баланс стоимости и времени ответа среди всех 2 моделей.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-04

Метрика	DeepSeek V4 Flash DeepSeek V4 Flash none Релиз: 2026-04-24	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно

Метрика	DeepSeek V4 Flash DeepSeek V4 Flash none Релиз: 2026-04-24	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно
Оценка	5.0	6.1
Ранг	#139	#99
Надежность	10.0	10.0
Стабильность	8.9	8.0
Тестов верно
Доля успешных попыток	30.2%	52.4%
Нестабильные тесты	3	5
Всего запусков	63	63
Стоимость за результат	0.203	0.141
Общая стоимость	$0.008	$0.013
Цена входа	$0.099 / 1M	$0.039 / 1M
Цена выхода	$0.197 / 1M	$0.180 / 1M
Общее число входных токенов	50,127	39,084
Выходные токены	13,710	20,013
Токены рассуждений	0	50,233
Время ответа (среднее)	26.75s	22.28s
Время ответа (макс.)	111.96s	68.16s
Время ответа (суммарно)	561.82s	311.96s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#139 DeepSeek V4 Flash

none

Cost: $0.004
Time: 157.6s
Tokens: 11,297 tok

#99 gpt-oss-120b

medium

Cost: $0.001
Time: 26.7s
Tokens: 555 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	3.0	10.0	0.0%	0		20.18s	540	174	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	1,314	3,518	2,177

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	4.2	7.4	11.1%	1		17.13s	7,279	9,717	0
gpt-oss-120b	5.9	7.0	55.6%	1		38.37s	7,782	3,365	11,973

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	4.5	2.1	66.7%	1		111.96s	24,398	2,664	0
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	11,535	694	5,072

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	10.0	10.0	100.0%	0		23.79s	7,290	195	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	7,476	241	1,114

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	5.3	10.0	33.3%	0		19.73s	666	18	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	1,266	6,784	20,606

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	4.2	9.9	0.0%	0		23.74s	471	67	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	659	107	387

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	6.5	10.0	50.0%	0		17.54s	627	321	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	1,036	126	1,799

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	3.1	7.3	11.1%	1		23.72s	594	207	0
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,190	1,790	2,264

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	10.0	10.0	100.0%	0		77.93s	8,079	327	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	6,514	287	1,083

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	3.0	10.0	0.0%	0		3.07s	183	20	0
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	312	3,101	3,758

Быстрое сравнение

Сменить пару сравнения