比较图表

语言:

❤️ Made by XCS

#12

DeepSeek V3.2

Deepseek · 发布日期: 2025-12-01 · deepseek/deepseek-v3.2::medium

平均分

6.99

每个结果成本

0.193

一致性

8.75

总成本

$0.018

测试正确

9

只有当某个测试的所有运行都通过时，才计为完全通过。

错误测试数

5

尝试通过率: 71.4%

不稳定测试

2

响应时间：平均 36.24s · 总计 507.30s · 最大 79.03s

答案错误: 3 未遵循指令: 1 超时: 1

按分数排名的模型

先选择第一个模型，再点击第二个模型打开并排页面。

#6 Gemini 3 Flash Preview 8.36

#7 GPT-5.3-Codex 7.93

#8 Claude Sonnet 4.6 7.43

#9 GLM 5 7.29

#10 Gemini 3 Flash Preview 7.22

#11 Step 3.5 Flash 7.00

#12 DeepSeek V3.2 6.99

#13 GPT-5.2 6.93

#14 Qwen3.5-122B-A10B 6.77

#15 Claude Sonnet 4.6 6.36

#16 Qwen3.5 Plus 2026-02-15 6.29

#17 Grok 4.1 Fast 6.29

#18 Kimi K2.5 6.29

快速对比

DeepSeek V3.2mediumvsStep 3.5 Flashmedium免费可用 DeepSeek V3.2mediumvsGPT-5.2medium DeepSeek V3.2mediumvsGemini 3 Flash Previewnone DeepSeek V3.2mediumvsQwen3.5-122B-A10Bmedium DeepSeek V3.2mediumvsGLM 5medium DeepSeek V3.2mediumvsClaude Sonnet 4.6none DeepSeek V3.2mediumvsGemini 3 Flash Previewmedium DeepSeek V3.2mediumvsGemini 3.1 Pro Previewmedium

类别细分

类别	平均分	一致性	测试正确
Anti-AI Tricks	7.00	9.86	2/3
Data parsing and extraction	9.88	10.00	2/2
Domain specific	4.00	7.21	1/3
Instructions following	7.00	9.84	1/2
Puzzle Solving	7.00	7.21	2/3
Tool Calling	10.00	10.00	1/1