Anthropic: Claude Opus 4.6

ベンチマークは Aibenchy テストスイートから次の日時に生成 : 2026/02/19

カテゴリ内訳

カテゴリ	完全合格テスト	Score	一貫性	試行ごとの合格率	不安定なテスト	推論スコア	コスト
Anti-AI Tricks	0/2	1.00	1.62	33.3%	2	10.00	$0.03036
Data parsing and extraction	2/2	10.00	10.00	100.0%	0	9.83	$0.07755
Domain specific	0/3	1.00	10.00	0.0%	0	7.61	$0.60915
Instructions following	2/2	9.50	9.99	100.0%	0	9.50	$0.02231
Puzzle Solving	2/3	7.00	10.00	66.7%	0	9.44	$0.03281

Anthropic: Claude Opus 4.6 と比較...

#15 · Z.ai

推論なし

Score: 5.42

一貫性: 10.00

試行ごとの合格率: 50.0%

不安定なテスト: 0

結果あたりのコスト: 0.0704

正解テスト: 6/12

合計コスト: $0.00423

#17 · MiniMax

推論（medium）

Score: 5.08

一貫性: 6.00

試行ごとの合格率: 61.1%

不安定なテスト: 6

結果あたりのコスト: 4.0276

正解テスト: 5/12

合計コスト: $0.20138

#14 · Qwen

推論なし

Score: 5.67

一貫性: 9.99

試行ごとの合格率: 50.0%

不安定なテスト: 0

結果あたりのコスト: 0.0997

正解テスト: 6/12

合計コスト: $0.00599

Anthropic: Claude Opus 4.6 と比較...