Anthropic: Claude Opus 4.6

基准结果生成自 Aibenchy 测试套件，时间： : 2026年2月19日

类别细分

类别	完全通过的测试	Score	一致性	尝试通过率	不稳定测试	推理得分	成本
Anti-AI Tricks	0/2	1.00	1.62	33.3%	2	10.00	$0.03036
Data parsing and extraction	2/2	10.00	10.00	100.0%	0	9.83	$0.07755
Domain specific	0/3	1.00	10.00	0.0%	0	7.61	$0.60915
Instructions following	2/2	9.50	9.99	100.0%	0	9.50	$0.02231
Puzzle Solving	2/3	7.00	10.00	66.7%	0	9.44	$0.03281

将 Anthropic: Claude Opus 4.6 与...对比

#15 · Z.ai

无推理

Score: 5.42

一致性: 10.00

尝试通过率: 50.0%

不稳定测试: 0

每个结果成本: 0.0704

测试正确: 6/12

总成本: $0.00423

#17 · MiniMax

推理（medium）

Score: 5.08

一致性: 6.00

尝试通过率: 61.1%

不稳定测试: 6

每个结果成本: 4.0276

测试正确: 5/12

总成本: $0.20138

#14 · Qwen

无推理

Score: 5.67

一致性: 9.99

尝试通过率: 50.0%

不稳定测试: 0

每个结果成本: 0.0997

测试正确: 6/12

总成本: $0.00599

将 Anthropic: Claude Opus 4.6 与...对比