#139 DeepSeek V4 Flash
none- Cost
- $0.004
- Time
- 157.6s
- Tokens
- 11,297 tok
AI BENCHY Compare
概要
DeepSeek V4 Flash vs Qwen3.5 Plus 2026-04-20 の benchmark 比較: Qwen3.5 Plus 2026-04-20 が平均スコアでリードし、5.7 vs 5.0 です。 DeepSeek V4 Flash の benchmark コストが低く、$0.008 vs $0.032 です。 Qwen3.5 Plus 2026-04-20 の方が高速で、4.39s vs 26.75s です、成功率は 30.2% vs 41.3% です。
おすすめモデル: Qwen3.5 Plus 2026-04-20 - ここでは最高スコア(5.7)で、DeepSeek V4 Flash より約 6.1 倍速く応答します。
ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-04
| 指標 | DeepSeek V4 Flash DeepSeek V4 Flash none | Qwen3.5 Plus 2026-04-20 Qwen3.5 Plus 2026-04-20 none |
|---|---|---|
| スコア | 5.0 | 5.7 |
| 順位 | #139 | #114 |
| 信頼性 | 10.0 | 10.0 |
| 一貫性 | 8.9 | 8.6 |
| 正解テスト | ||
| 試行ごとの合格率 | 30.2% | 41.3% |
| 不安定なテスト | 3 | 4 |
| 総実行回数 | 63 | 63 |
| 結果あたりのコスト | 0.203 | 0.595 |
| 合計コスト | $0.008 | $0.032 |
| 入力価格 | $0.099 / 1M | $0.300 / 1M |
| 出力価格 | $0.197 / 1M | $1.800 / 1M |
| 合計入力トークン | 50,127 | 38,910 |
| 出力トークン | 13,710 | 11,145 |
| 推論トークン | 0 | 0 |
| 応答時間(平均) | 26.75s | 4.39s |
| 応答時間(最大) | 111.96s | 33.34s |
| 応答時間(合計) | 561.82s | 92.26s |
Generation showcase
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
| 反AIトリック | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 3.0 | 10.0 | 0.0% | 0 | 20.18s | 540 | 174 | 0 | |
| Qwen3.5 Plus 2026-04-20 | 4.8 | 10.0 | 25.0% | 0 | 1.88s | 696 | 557 | 0 |
| コーディング | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 4.2 | 7.4 | 11.1% | 1 | 17.13s | 7,279 | 9,717 | 0 | |
| Qwen3.5 Plus 2026-04-20 | 3.9 | 7.8 | 11.1% | 1 | 1.69s | 7,913 | 480 | 0 |
| 複合 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 4.5 | 2.1 | 66.7% | 1 | 111.96s | 24,398 | 2,664 | 0 | |
| Qwen3.5 Plus 2026-04-20 | 2.8 | 1.6 | 33.3% | 1 | 13.32s | 11,350 | 2,275 | 0 |
| データ解析と抽出 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 10.0 | 10.0 | 100.0% | 0 | 23.79s | 7,290 | 195 | 0 | |
| Qwen3.5 Plus 2026-04-20 | 10.0 | 10.0 | 100.0% | 0 | 2.82s | 7,794 | 243 | 0 |
| ドメイン特化 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 5.3 | 10.0 | 33.3% | 0 | 19.73s | 666 | 18 | 0 | |
| Qwen3.5 Plus 2026-04-20 | 5.3 | 10.0 | 33.3% | 0 | 4.43s | 789 | 18 | 0 |
| 汎用知能 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 4.2 | 9.9 | 0.0% | 0 | 23.74s | 471 | 67 | 0 | |
| Qwen3.5 Plus 2026-04-20 | 4.8 | 10.0 | 0.0% | 0 | 1.41s | 522 | 119 | 0 |
| 指示追従 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 6.5 | 10.0 | 50.0% | 0 | 17.54s | 627 | 321 | 0 | |
| Qwen3.5 Plus 2026-04-20 | 6.2 | 5.8 | 66.7% | 1 | 1.17s | 711 | 68 | 0 |
| パズル解決 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 3.1 | 7.3 | 11.1% | 1 | 23.72s | 594 | 207 | 0 | |
| Qwen3.5 Plus 2026-04-20 | 6.7 | 7.9 | 55.6% | 1 | 1.97s | 714 | 583 | 0 |
| ツール呼び出し | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 10.0 | 10.0 | 100.0% | 0 | 77.93s | 8,079 | 327 | 0 | |
| Qwen3.5 Plus 2026-04-20 | 10.0 | 10.0 | 100.0% | 0 | 4.42s | 8,211 | 297 | 0 |
| 雑学 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 3.0 | 10.0 | 0.0% | 0 | 3.07s | 183 | 20 | 0 | |
| Qwen3.5 Plus 2026-04-20 | 3.0 | 10.0 | 0.0% | 0 | 33.34s | 210 | 6,505 | 0 |
比較ペアを切り替え