ナビゲーション
AI BENCHY
Your ad here

AI BENCHY Compare

比較対象モデル

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-04-16

指標 Nemotron 3 Super Nemotron 3 Super medium リリース: 2026-03-11 無料で利用可能 Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium リリース: 2026-02-24 Elephant Elephant medium リリース: 2026-04-14 gpt-oss-120b gpt-oss-120b medium リリース: 2025-08-05 無料で利用可能
スコア 6.7 8.1 5.2 5.8
順位 #50 #19 #79 #67
一貫性 8.7 8.6 9.6 7.2
正解テスト
試行ごとの合格率 55.6% 79.6% 29.6% 51.9%
不安定なテスト 3 3 1 6
総実行回数 52 54 54 54
結果あたりのコスト 0.000 4.060 0.000 0.144
合計コスト $0.000 $0.528 $0.000 $0.011
???? $0.100 / 1M $0.260 / 1M $0.000 / 1M $0.039 / 1M
???? $0.500 / 1M $2.080 / 1M $0.000 / 1M $0.190 / 1M
出力トークン 11,947 17,635 2,596 13,493
推論トークン 29,768 162,668 0 36,879
応答時間(平均) 19.06s 31.38s 1.27s 16.08s
応答時間(最大) 87.80s 119.29s 3.70s 50.92s
応答時間(合計) 305.04s 564.84s 22.82s 176.88s

スコア上位モデル

スコア vs 総コスト

応答時間(平均)

スコア vs 応答時間(平均)

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Nemotron 3 Super 10.0 10.0 100.0% 0 10.08s 1,776 3,345
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.75s 269 16,835
Elephant 6.6 10.0 50.0% 0 1.19s 815 0
gpt-oss-120b 6.7 9.9 50.0% 0 10.21s 3,518 2,177
コーディング スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Nemotron 3 Super 3.0 10.0 0.0% 0 0ms 0 0
Qwen3.5-122B-A10B 4.7 1.6 66.7% 1 70.98s 322 10,694
Elephant 5.1 3.3 33.3% 1 1.30s 365 0
gpt-oss-120b 4.3 1.1 66.7% 1 26.33s 228 2,549
複合 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Nemotron 3 Super 10.0 10.0 100.0% 0 87.80s 2,021 9,996
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 107.79s 483 11,337
Elephant 3.0 10.0 0.0% 0 3.70s 562 0
gpt-oss-120b 10.0 10.0 100.0% 0 31.18s 694 5,072
データ解析と抽出 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Nemotron 3 Super 10.0 10.0 100.0% 0 18.16s 877 2,607
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 23.41s 270 16,558
Elephant 6.5 10.0 50.0% 0 979ms 246 0
gpt-oss-120b 6.4 5.9 66.7% 1 1.98s 241 1,114
ドメイン特化 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Nemotron 3 Super 2.9 4.4 22.2% 2 16.19s 5,255 6,072
Qwen3.5-122B-A10B 2.9 7.2 11.1% 1 63.40s 15,537 64,889
Elephant 3.0 10.0 0.0% 0 925ms 24 0
gpt-oss-120b 2.9 4.4 22.2% 2 50.92s 6,784 20,606
汎用知能 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Nemotron 3 Super 3.8 9.9 0.0% 0 27.86s 104 1,149
Qwen3.5-122B-A10B 3.4 2.2 33.3% 1 34.11s 66 7,592
Elephant 4.3 10.0 0.0% 0 920ms 105 0
gpt-oss-120b 4.3 10.0 0.0% 0 7.90s 107 387
指示追従 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Nemotron 3 Super 7.2 6.5 66.7% 1 7.72s 1,042 2,479
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.88s 77 7,372
Elephant 9.8 10.0 100.0% 0 987ms 82 0
gpt-oss-120b 9.9 10.0 100.0% 0 7.63s 126 1,799
パズル解決 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Nemotron 3 Super 3.5 9.8 0.0% 0 8.39s 602 2,151
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 17.18s 289 26,165
Elephant 3.7 10.0 0.0% 0 867ms 166 0
gpt-oss-120b 3.2 4.7 22.2% 2 11.80s 1,508 2,092
ツール呼び出し スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Nemotron 3 Super 10.0 10.0 100.0% 0 39.75s 270 1,969
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 4.60s 322 1,226
Elephant 3.0 10.0 0.0% 0 2.83s 231 0
gpt-oss-120b 9.8 10.0 100.0% 0 6.91s 287 1,083

クイック比較

比較ペアを切り替え