AI BENCHY 对比

Anthropic: Claude Sonnet 4.6 vs OpenAI: GPT-5.3 Chat

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-06-01

指标	Claude Sonnet 4.6 Claude Sonnet 4.6 medium 发布日期: 2026-02-17	GPT-5.3 Chat GPT-5.3 Chat none 发布日期: 2026-03-03

指标	Claude Sonnet 4.6 Claude Sonnet 4.6 medium 发布日期: 2026-02-17	GPT-5.3 Chat GPT-5.3 Chat none 发布日期: 2026-03-03
分数	7.6	7.4
排名	#52	#57
可靠性	10.0	10.0
一致性	9.2	8.4
测试正确
尝试通过率	68.3%	68.3%
不稳定测试	2	4
总运行次数	60	60
每个结果成本	10.229	3.350
总成本	$1.330	$0.402
输入价格	$3.000 / 1M	$1.750 / 1M
输出价格	$15.000 / 1M	$14.000 / 1M
输出令牌	49,891	24,757
推理令牌	29,565	0
响应时间（平均）	15.81s	6.13s
响应时间（最大）	46.35s	18.33s
响应时间（总计）	189.71s	122.61s

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	3,167	0

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Sonnet 4.6	6.9	6.0	66.7%	1		33.87s	11,277	3,281
GPT-5.3 Chat	6.9	6.2	66.7%	1		10.52s	4,772	0

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	942	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	8,264	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	319	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	1,491	0

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Sonnet 4.6	10.0	10.0	100.0%	0		5.31s	592	646
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	1,758	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	3,437	1,586
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	569	0

快速对比

切换对比组合

GPT-5.3 ChatnonevsMiMo-V2.5medium GPT-5.3 ChatnonevsGLM 5.1medium Gemini 3.1 Flash LitelowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsStep 3.7 Flashlow Kimi K2.6medium免费可用vsGPT-5.3 Chatnone GPT-5.3 ChatnonevsStep 3.5 Flashmedium GPT-5.3 ChatnonevsGLM 5V Turbomedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsDeepSeek V4 Flashhigh Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone MiniMax M3mediumvsGPT-5.3 Chatnone