#139 DeepSeek V4 Flash
none- Cost
- $0.004
- Time
- 157.6s
- Tokens
- 11,297 tok
AI BENCHY Compare
概要
DeepSeek V4 Flash vs Gemini 3.5 Flash の benchmark 比較: Gemini 3.5 Flash が平均スコアでリードし、9.4 vs 5.0 です。 DeepSeek V4 Flash の benchmark コストが低く、$0.008 vs $0.349 です。 Gemini 3.5 Flash の方が高速で、3.27s vs 26.75s です、成功率は 30.2% vs 90.5% です。
おすすめモデル: Gemini 3.5 Flash - ここでは最高スコア(9.4)で、DeepSeek V4 Flash より約 8.2 倍速く応答します。
ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-04
| 指標 | DeepSeek V4 Flash DeepSeek V4 Flash none | Gemini 3.5 Flash Gemini 3.5 Flash low |
|---|---|---|
| スコア | 5.0 | 9.4 |
| 順位 | #139 | #3 |
| 信頼性 | 10.0 | 10.0 |
| 一貫性 | 8.9 | 10.0 |
| 正解テスト | ||
| 試行ごとの合格率 | 30.2% | 90.5% |
| 不安定なテスト | 3 | 0 |
| 総実行回数 | 63 | 63 |
| 結果あたりのコスト | 0.203 | 1.834 |
| 合計コスト | $0.008 | $0.349 |
| 入力価格 | $0.099 / 1M | $1.500 / 1M |
| 出力価格 | $0.197 / 1M | $9.000 / 1M |
| 合計入力トークン | 50,127 | 36,938 |
| 出力トークン | 13,710 | 2,033 |
| 推論トークン | 0 | 30,519 |
| 応答時間(平均) | 26.75s | 3.27s |
| 応答時間(最大) | 111.96s | 9.05s |
| 応答時間(合計) | 561.82s | 68.65s |
Generation showcase
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
| 反AIトリック | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 3.0 | 10.0 | 0.0% | 0 | 20.18s | 540 | 174 | 0 | |
| Gemini 3.5 Flash | 10.0 | 10.0 | 100.0% | 0 | 2.52s | 494 | 209 | 2,536 |
| コーディング | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 4.2 | 7.4 | 11.1% | 1 | 17.13s | 7,279 | 9,717 | 0 | |
| Gemini 3.5 Flash | 7.8 | 10.0 | 66.7% | 0 | 6.71s | 8,118 | 458 | 13,420 |
| 複合 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 4.5 | 2.1 | 66.7% | 1 | 111.96s | 24,398 | 2,664 | 0 | |
| Gemini 3.5 Flash | 10.0 | 10.0 | 100.0% | 0 | 6.44s | 12,873 | 351 | 3,050 |
| データ解析と抽出 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 10.0 | 10.0 | 100.0% | 0 | 23.79s | 7,290 | 195 | 0 | |
| Gemini 3.5 Flash | 10.0 | 10.0 | 100.0% | 0 | 1.81s | 7,548 | 279 | 1,164 |
| ドメイン特化 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 5.3 | 10.0 | 33.3% | 0 | 19.73s | 666 | 18 | 0 | |
| Gemini 3.5 Flash | 7.7 | 10.0 | 66.7% | 0 | 3.39s | 633 | 12 | 4,538 |
| 汎用知能 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 4.2 | 9.9 | 0.0% | 0 | 23.74s | 471 | 67 | 0 | |
| Gemini 3.5 Flash | 10.0 | 10.0 | 100.0% | 0 | 2.27s | 486 | 119 | 916 |
| 指示追従 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 6.5 | 10.0 | 50.0% | 0 | 17.54s | 627 | 321 | 0 | |
| Gemini 3.5 Flash | 9.9 | 10.0 | 100.0% | 0 | 1.86s | 615 | 71 | 1,652 |
| パズル解決 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 3.1 | 7.3 | 11.1% | 1 | 23.72s | 594 | 207 | 0 | |
| Gemini 3.5 Flash | 10.0 | 10.0 | 100.0% | 0 | 2.35s | 558 | 288 | 2,150 |
| ツール呼び出し | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 10.0 | 10.0 | 100.0% | 0 | 77.93s | 8,079 | 327 | 0 | |
| Gemini 3.5 Flash | 10.0 | 10.0 | 100.0% | 0 | 3.27s | 5,457 | 234 | 403 |
| 雑学 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 3.0 | 10.0 | 0.0% | 0 | 3.07s | 183 | 20 | 0 | |
| Gemini 3.5 Flash | 10.0 | 10.0 | 100.0% | 0 | 1.88s | 156 | 12 | 690 |
比較ペアを切り替え