AI BENCHY Compare

DeepSeek: DeepSeek V4 Flash vs Qwen: Qwen3.5-9B

Сводка

Сравнение benchmark DeepSeek V4 Flash vs Qwen3.5-9B: DeepSeek V4 Flash лидирует по среднему баллу: 5.0 vs 4.2. DeepSeek V4 Flash имеет более низкую стоимость benchmark: $0.008 vs $0.035. DeepSeek V4 Flash быстрее: 26.75s vs 82.24s, с долей успешных попыток 30.2% vs 27.0%.

Рекомендуемая модель: DeepSeek V4 Flash - Здесь у него лучший балл (5.0), при этом он примерно в 4.6 раза дешевле, чем Qwen3.5-9B.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-04

Метрика	DeepSeek V4 Flash DeepSeek V4 Flash none Релиз: 2026-04-24	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02

Метрика	DeepSeek V4 Flash DeepSeek V4 Flash none Релиз: 2026-04-24	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02
Оценка	5.0	4.2
Ранг	#139	#161
Надежность	10.0	6.7
Стабильность	8.9	8.0
Тестов верно
Доля успешных попыток	30.2%	27.0%
Нестабильные тесты	3	5
Всего запусков	63	63
Стоимость за результат	0.203	1.187
Общая стоимость	$0.008	$0.035
Цена входа	$0.099 / 1M	$0.040 / 1M
Цена выхода	$0.197 / 1M	$0.150 / 1M
Общее число входных токенов	50,127	17,070
Выходные токены	13,710	29,045
Токены рассуждений	0	209,516
Время ответа (среднее)	26.75s	82.24s
Время ответа (макс.)	111.96s	226.38s
Время ответа (суммарно)	561.82s	1315.88s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#139 DeepSeek V4 Flash

none

Cost: $0.004
Time: 157.6s
Tokens: 11,297 tok

#161 Qwen3.5-9B

medium

Cost: $0.001
Time: 35.9s
Tokens: 3,030 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	3.0	10.0	0.0%	0		20.18s	540	174	0
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	369	2,621	12,411

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	4.2	7.4	11.1%	1		17.13s	7,279	9,717	0
Qwen3.5-9B	2.9	10.0	0.0%	0		100.88s	2,396	7,890	41,129

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	4.5	2.1	66.7%	1		111.96s	24,398	2,664	0
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	10.0	10.0	100.0%	0		23.79s	7,290	195	0
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	4,722	1,383	32,113

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	5.3	10.0	33.3%	0		19.73s	666	18	0
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	295	11,549	48,475

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	4.2	9.9	0.0%	0		23.74s	471	67	0
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	180	0	30,695

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	6.5	10.0	50.0%	0		17.54s	627	321	0
Qwen3.5-9B	6.5	10.0	50.0%	0		5.75s	381	491	1,824

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	3.1	7.3	11.1%	1		23.72s	594	207	0
Qwen3.5-9B	3.0	10.0	0.0%	0		32.27s	376	1,593	12,026

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	10.0	10.0	100.0%	0		77.93s	8,079	327	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	8,283	444	1,149

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	3.0	10.0	0.0%	0		3.07s	183	20	0
Qwen3.5-9B	3.0	10.0	0.0%	0		177.02s	68	3,074	29,694

Быстрое сравнение

Сменить пару сравнения

Ling-2.6-1TnonevsQwen3.5-9Bmedium Granite 4.1 8BnonevsQwen3.5-9Bmedium DeepSeek V4 FlashnonevsMistral Small 4medium DeepSeek V4 FlashnonevsMiniMax M2.7medium DeepSeek V4 FlashnonevsQwen3 Coder Nextmedium DeepSeek V4 FlashnonevsMiniMax M2.5medium Mercury 2nonevsQwen3.5-9Bmedium Qwen3.5-9BmediumvsMiMo-V2-Flashnone Trinity Large PreviewnonevsQwen3.5-9Bmedium GPT-5.4 NanononevsQwen3.5-9Bmedium GPT-4o-mininonevsQwen3.5-9Bmedium DeepSeek V4 FlashnonevsGLM 4.7 Flashmedium