导航
AI BENCHY
Advertise here

AI BENCHY 对比

DeepSeek: DeepSeek V3.2 vs Google: Gemini 3.5 Flash

摘要

DeepSeek V3.2 vs Gemini 3.5 Flash benchmark 对比:DeepSeek V3.2 平均分领先,为 7.5 vs 7.0DeepSeek V3.2 benchmark 成本更低,为 $0.044 vs $1.079Gemini 3.5 Flash 更快,为 9.93s vs 68.71s,通过率为 65.1% vs 77.8%

推荐模型: DeepSeek V3.2 - 它在这里得分最高(7.5),同时成本比Gemini 3.5 Flash低约 24.6 倍。

基准结果生成自 AI BENCHY 测试套件,时间:: 2026-06-18

指标 DeepSeek V3.2 DeepSeek V3.2 medium 发布日期: 2025-12-01 Gemini 3.5 Flash Gemini 3.5 Flash none 发布日期: 2026-05-19
分数 7.5 7.0
排名 #48 #66
可靠性 10.0 10.0
一致性 7.6 8.9
测试正确
尝试通过率 65.1% 77.8%
不稳定测试 6 3
总运行次数 63 63
每个结果成本 0.436 7.190
总成本 $0.044 $1.079
输入价格 $0.229 / 1M $1.500 / 1M
输出价格 $0.344 / 1M $9.000 / 1M
总输入令牌 38,333 13,843
输出令牌 7,186 117,518
推理令牌 99,081 0
响应时间(平均) 68.71s 9.93s
响应时间(最大) 376.10s 64.36s
响应时间(总计) 1442.81s 178.68s

生成展示

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#48 DeepSeek V3.2

medium
成本
$0.001
时间
53.6s
令牌
1,932 tok

#66 Gemini 3.5 Flash

none
成本
$0.225
时间
125.5s
令牌
25,004 tok

按分数排名的模型

分数 vs 总成本

响应时间(平均)

分数 vs 响应时间(平均)

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
DeepSeek V3.2 8.2 7.9 83.3% 1 24.23s 448 3,247 6,953
Gemini 3.5 Flash 10.0 10.0 100.0% 0 2.53s 492 5,101 0
编程 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
DeepSeek V3.2 6.0 7.2 55.6% 1 248.68s 5,717 649 52,014
Gemini 3.5 Flash 8.8 7.8 88.9% 1 34.69s 8,122 75,927 0
综合 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
DeepSeek V3.2 10.0 10.0 100.0% 0 93.11s 14,283 571 6,296
Gemini 3.5 Flash 3.0 10.0 0.0% 0 0ms 0 0 0
数据解析与提取 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
DeepSeek V3.2 10.0 10.0 100.0% 0 36.09s 7,388 207 7,693
Gemini 3.5 Flash 6.5 10.0 50.0% 0 8.10s 2,781 5,895 0
领域专项 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
DeepSeek V3.2 2.9 4.4 22.2% 2 24.27s 472 21 6,838
Gemini 3.5 Flash 7.6 7.2 77.8% 1 10.64s 633 17,910 0
通用智能 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
DeepSeek V3.2 3.4 2.5 33.3% 1 58.29s 314 49 2,189
Gemini 3.5 Flash 10.0 10.0 100.0% 0 3.46s 486 1,620 0
指令遵循 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
DeepSeek V3.2 10.0 10.0 100.0% 0 35.78s 627 1,397 2,845
Gemini 3.5 Flash 9.8 10.0 100.0% 0 3.38s 615 3,928 0
谜题求解 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
DeepSeek V3.2 7.0 7.2 55.6% 1 37.69s 594 518 6,375
Gemini 3.5 Flash 10.0 10.0 100.0% 0 3.13s 558 4,640 0
工具调用 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
DeepSeek V3.2 10.0 10.0 100.0% 0 34.81s 8,307 507 859
Gemini 3.5 Flash 3.0 10.0 0.0% 0 0ms 0 0 0
常识问答 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
DeepSeek V3.2 3.0 10.0 0.0% 0 83.99s 183 20 7,019
Gemini 3.5 Flash 2.8 1.6 33.3% 1 4.87s 156 2,497 0

快速对比

切换对比组合