AI BENCHY 对比

已对比模型

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-04-24

指标	GPT-5.5 GPT-5.5 medium 发布日期: 2026-04-24	GPT-5.4 GPT-5.4 medium 发布日期: 2026-03-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium 发布日期: 2026-02-19	Claude Opus 4.7 Claude Opus 4.7 medium 发布日期: 2026-04-16

指标	GPT-5.5 GPT-5.5 medium 发布日期: 2026-04-24	GPT-5.4 GPT-5.4 medium 发布日期: 2026-03-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium 发布日期: 2026-02-19	Claude Opus 4.7 Claude Opus 4.7 medium 发布日期: 2026-04-16
分数	9.0	8.2	9.6	9.2
排名	#5	#18	#2	#3
可靠性	不适用	不适用	不适用	不适用
一致性	9.2	8.7	10.0	10.0
测试正确
尝试通过率	87.0%	79.6%	94.4%	88.9%
不稳定测试	2	3	0	0
总运行次数	54	54	54	54
每个结果成本	19.226	6.399	3.400	2.790
总成本	$2.884	$0.832	$0.578	$0.447
????	$5.000 / 1M	$2.500 / 1M	$2.000 / 1M	$5.000 / 1M
????	$30.000 / 1M	$15.000 / 1M	$12.000 / 1M	$25.000 / 1M
输出令牌	1,920	2,169	1,932	5,375
推理令牌	89,632	48,732	40,542	1,341
响应时间（平均）	32.75s	18.63s	15.96s	3.53s
响应时间（最大）	332.10s	100.41s	40.61s	21.45s
响应时间（总计）	589.59s	335.26s	175.52s	60.03s

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
GPT-5.5	10.0	10.0	100.0%	0		4.66s	250	1,335
GPT-5.4	8.3	10.0	75.0%	0		4.11s	240	1,511
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	348	0

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
GPT-5.5	10.0	10.0	100.0%	0		9.09s	318	1,391
GPT-5.4	10.0	10.0	100.0%	0		13.03s	389	2,045
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201
Claude Opus 4.7	10.0	10.0	100.0%	0		6.41s	1,141	257

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
GPT-5.5	10.0	10.0	100.0%	0		19.29s	312	2,841
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	2,369	1,084

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
GPT-5.5	10.0	10.0	100.0%	0		4.18s	234	593
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	324	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
GPT-5.5	5.3	7.2	44.4%	1		164.14s	67	79,625
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	51	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
GPT-5.5	10.0	10.0	100.0%	0		4.16s	138	223
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	256	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
GPT-5.5	10.0	10.0	100.0%	0		3.36s	93	538
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	114	0

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
GPT-5.5	8.6	7.9	77.8%	1		6.78s	250	2,254
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
Claude Opus 4.7	10.0	10.0	100.0%	0		2.51s	399	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
GPT-5.5	10.0	10.0	100.0%	0		10.57s	258	832
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	373	0

快速对比

切换对比组合

DeepSeek V4 ProhighvsGPT-5.4medium GPT-5.4mediumvsHY3 Previewlow免费可用 Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewlowvsGPT-5.5medium Claude Opus 4.7nonevsGPT-5.5medium GPT-5.4mediumvsHY3 Previewhigh免费可用 Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium DeepSeek V4 FlashhighvsGPT-5.4medium Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium Claude Opus 4.7mediumvsGemini 3 Flash Previewlow GPT-5.5mediumvsHY3 Previewhigh免费可用