比较图表

语言:

❤️ Made by XCS

#7

GPT-5.4

OpenAI · 发布日期: 2026-03-05 · openai/gpt-5.4::medium

平均分

8.2

每个结果成本

6.533

一致性

8.9

总成本

$0.784

测试正确

12

只有当某个测试的所有运行都通过时，才计为完全通过。

错误测试数

3

尝试通过率: 86.7%

不稳定测试

2

不稳定测试在运行之间出现混合结果（至少一次通过且至少一次失败）。

响应时间（平均）

21.06s

响应时间（最大）: 100.41s

响应时间（总计）: 315.95s

答案错误: 2 未遵循指令: 1

按分数排名的模型

先选择第一个模型，再点击第二个模型打开并排页面。

#1 Gemini 3 Flash Preview 10.0

#2 Gemini 3.1 Pro Preview 9.3

#3 Qwen3.5 Plus 2026-02-15 8.8

#4 GPT-5.3-Codex 8.7

#5 Qwen3.5-27B 8.5

#6 Qwen3.5-122B-A10B 8.2

#7 GPT-5.4 8.2

#8 Gemini 3 Flash Preview 8.1

#9 Gemini 3 Pro Preview 8.1

#10 Gemini 3.1 Flash Lite Preview 8.1

#11 GPT-5.2 Chat 7.7

#12 Gemini 3.1 Flash Lite Preview 7.6

#13 DeepSeek V3.2 7.6

快速对比

GPT-5.4mediumvsQwen3.5-122B-A10Bmedium GPT-5.4mediumvsGemini 3 Flash Previewlow GPT-5.4mediumvsQwen3.5-27Bmedium GPT-5.4mediumvsGemini 3 Pro Previewmedium GPT-5.4mediumvsGPT-5.3-Codexmedium GPT-5.4mediumvsGemini 3.1 Flash Lite Previewhigh GPT-5.4mediumvsGemini 3 Flash Previewmedium GPT-5.4mediumvsGemini 3.1 Pro Previewmedium GPT-5.4mediumvsStep 3.5 Flashmedium免费可用

类别细分

类别	平均分	一致性	测试正确
Anti-AI Tricks	10.0	10.0	3/3
Combined	10.0	10.0	1/1
Data parsing and extraction	9.9	10.0	2/2
Domain specific	4.0	7.2	1/3
Instructions following	10.0	10.0	2/2
Puzzle Solving	7.0	7.2	2/3
Tool Calling	10.0	10.0	1/1