AI BENCHY
比較する
❤️ Made by XCS

モデル名

Anthropic: Claude Sonnet 4.6

ベンチマークは Aibenchy テストスイートから次の日時に生成 : 2026/02/19

指標 Anthropic: Claude Sonnet 4.6
順位#13
企業Anthropic
Score 5.75
一貫性 9.42
結果あたりのコスト 0.9480
合計コスト $0.05688
正解テスト 6/12
試行ごとの合格率 52.8%
不安定なテスト 1
出力トークン 1,659
推論トークン 0

カテゴリ内訳

カテゴリ 完全合格テスト Score 一貫性 試行ごとの合格率 不安定なテスト 推論スコア コスト
Anti-AI Tricks 0/2 1.00 10.00 0.0% 0 - $0.01092
Data parsing and extraction 2/2 10.00 10.00 100.0% 0 - $0.02854
Domain specific 2/3 7.00 10.00 66.7% 0 - $0.00309
Instructions following 1/2 5.50 10.00 50.0% 0 - $0.00342
Puzzle Solving 1/3 5.00 7.68 44.4% 1 - $0.01092

比較対象モデル

Anthropic: Claude Sonnet 4.6 と比較...

#12 · OpenAI

OpenAI: gpt-oss-120b

推論(medium)

Score: 5.75

一貫性: 7.19

試行ごとの合格率: 63.9%

不安定なテスト: 4

結果あたりのコスト: 0.0951

正解テスト: 6/12

合計コスト: $0.00571

比較する

#14 · Qwen

Qwen: Qwen3.5 Plus 2026-02-15

推論なし

Score: 5.67

一貫性: 9.99

試行ごとの合格率: 50.0%

不安定なテスト: 0

結果あたりのコスト: 0.0997

正解テスト: 6/12

合計コスト: $0.00599

比較する

#11 · OpenAI

OpenAI: GPT-5 Nano

推論(medium)

Score: 5.92

一貫性: 6.03

試行ごとの合格率: 72.2%

不安定なテスト: 6

結果あたりのコスト: 0.4675

正解テスト: 6/12

合計コスト: $0.02806

比較する

クイック比較

Anthropic: Claude Sonnet 4.6 と比較...