AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Qwen: Qwen3.5-Flash

概要

DeepSeek V4 Pro vs Qwen3.5-Flash の benchmark 比較: DeepSeek V4 Pro が平均スコアでリードし、7.2 vs 6.8 です。 DeepSeek V4 Pro の benchmark コストが低く、$0.034 vs $0.080 です。 DeepSeek V4 Pro の方が高速で、6.41s vs 63.29s です、成功率は 52.4% vs 71.4% です。

おすすめモデル: DeepSeek V4 Pro - ここでは最高スコア（7.2）で、Qwen3.5-Flash より約 2.4 倍低コストです。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-18

指標	DeepSeek V4 Pro DeepSeek V4 Pro none リリース: 2026-04-24	Qwen3.5-Flash Qwen3.5-Flash medium リリース: 2026-02-24

指標	DeepSeek V4 Pro DeepSeek V4 Pro none リリース: 2026-04-24	Qwen3.5-Flash Qwen3.5-Flash medium リリース: 2026-02-24
スコア	7.2	6.8
順位	#58	#70
信頼性	9.9	10.0
一貫性	8.8	8.1
正解テスト
試行ごとの合格率	52.4%	71.4%
不安定なテスト	3	5
総実行回数	63	63
結果あたりのコスト	0.333	0.871
合計コスト	$0.034	$0.080
入力価格	$0.435 / 1M	$0.065 / 1M
出力価格	$0.870 / 1M	$0.260 / 1M
合計入力トークン	53,558	38,926
出力トークン	11,424	2,088
推論トークン	0	294,598
応答時間（平均）	6.41s	63.29s
応答時間（最大）	30.09s	234.29s
応答時間（合計）	134.66s	1265.85s

生成ショーケース

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#58 DeepSeek V4 Pro

none

無効なSVG

コスト: $0.000
時間: 300.0s
トークン: 0 tok

#70 Qwen3.5-Flash

medium

コスト: $0.002
時間: 25.8s
トークン: 4,294 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Pro	3.2	6.1	16.7%	2		4.02s	540	1,168	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		59.11s	672	383	32,992

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Pro	5.6	10.0	33.3%	0		13.38s	7,275	5,500	0
Qwen3.5-Flash	3.7	7.2	22.2%	1		58.87s	6,685	302	90,081

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Pro	9.5	10.0	100.0%	0		23.74s	27,529	2,235	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	14,934	483	8,270

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Pro	10.0	10.0	100.0%	0		4.61s	7,568	200	0
Qwen3.5-Flash	7.3	5.9	83.3%	1		56.99s	6,061	235	16,237

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.72s	666	24	0
Qwen3.5-Flash	5.3	7.2	44.4%	1		146.50s	581	58	43,615

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Pro	5.0	10.0	0.0%	0		2.05s	471	126	0
Qwen3.5-Flash	6.1	3.1	66.7%	1		40.05s	516	99	38,486

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Pro	6.3	5.8	66.7%	1		4.12s	627	713	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	699	98	14,139

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Pro	10.0	10.0	100.0%	0		3.61s	594	442	0
Qwen3.5-Flash	8.2	7.2	88.9%	1		27.61s	381	89	12,457

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Pro	10.0	10.0	100.0%	0		7.40s	8,105	328	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	8,193	309	1,284

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
DeepSeek V4 Pro	3.0	10.0	0.0%	0		5.76s	183	688	0
Qwen3.5-Flash	3.0	10.0	0.0%	0		48.98s	204	32	37,037

クイック比較

比較ペアを切り替え

DeepSeek V4 PrononevsGemma 4 26B A4Bmedium無料で利用可能 Gemini 3.5 FlashminimalvsQwen3.5-Flashmedium Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsGLM 5.1medium Gemini 3.5 FlashnonevsQwen3.5-Flashmedium DeepSeek V4 PrononevsKimi K2.7 Codemedium DeepSeek V4 PrononevsGrok 4.20medium DeepSeek V4 PrononevsGemini 3 Flash Previewlow DeepSeek V4 PrononevsMiMo-V2.5-Promedium Seed-2.0-MinimediumvsDeepSeek V4 Pronone Qwen3.5-FlashmediumvsStep 3.7 Flashhigh