AI BENCHY
比較する
❤️ Made by XCS

モデル名

OpenAI: gpt-oss-120b

ベンチマークは Aibenchy テストスイートから次の日時に生成 : 2026/02/19

指標 OpenAI: gpt-oss-120b
順位#12
企業OpenAI
Score 5.75
一貫性 7.19
結果あたりのコスト 0.0951
合計コスト $0.00571
正解テスト 6/12
試行ごとの合格率 63.9%
不安定なテスト 4
出力トークン 8,060
推論トークン 23,792

カテゴリ内訳

カテゴリ 完全合格テスト Score 一貫性 試行ごとの合格率 不安定なテスト 推論スコア コスト
Anti-AI Tricks 2/2 10.00 10.00 100.0% 0 10.00 $0.00029
Data parsing and extraction 1/2 5.50 5.81 83.3% 1 10.00 $0.00052
Domain specific 0/3 1.00 4.41 22.2% 2 8.53 $0.00393
Instructions following 2/2 10.00 10.00 100.0% 0 9.50 $0.00040
Puzzle Solving 1/3 5.00 7.13 44.4% 1 7.89 $0.00059

比較対象モデル

OpenAI: gpt-oss-120b と比較...

#11 · OpenAI

OpenAI: GPT-5 Nano

推論(medium)

Score: 5.92

一貫性: 6.03

試行ごとの合格率: 72.2%

不安定なテスト: 6

結果あたりのコスト: 0.4675

正解テスト: 6/12

合計コスト: $0.02806

比較する

#13 · Anthropic

Anthropic: Claude Sonnet 4.6

推論なし

Score: 5.75

一貫性: 9.42

試行ごとの合格率: 52.8%

不安定なテスト: 1

結果あたりのコスト: 0.9480

正解テスト: 6/12

合計コスト: $0.05688

比較する

#10 · Google

Google: Gemini 3 Flash Preview

推論なし

Score: 6.25

一貫性: 8.60

試行ごとの合格率: 66.7%

不安定なテスト: 2

結果あたりのコスト: 0.0754

正解テスト: 7/12

合計コスト: $0.00528

比較する

クイック比較

OpenAI: gpt-oss-120b と比較...