AI BENCHY
AIベンチマーク リーダーボード
ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-04-20
評価済みモデル数: 99
99/99
モデルを絞り込む
現在の検索条件とフィルターに一致するモデルはありません。
| 順位 | モデル | スコア 全ベンチマークテストの平均スコア。 | 企業 | 合計コスト | 応答時間(平均) 応答時間(平均) | 正解テスト 完全合格したテスト数(全実行で合格)を示します。 |
|---|---|---|---|---|---|---|
| #9#9 | Qwen3.6 Plus Previewmedium | 8.5… | Qwen | $0.000… | 13.94s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 1 応答時間(平均)13.94s 応答時間(最大)43.55s 応答時間(合計)237.01s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 4
試行ごとの合格率: 76.5%
不安定なテスト: 0…
出力トークン: 1,756
推論トークン: 77,213
応答時間: 平均 13.94s · 合計 237.01s · 最大 43.55s
|
||||||
| #20#20 | Qwen3.6 Plusmedium | 8.1… | Qwen | $0.000… | 15.27s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 API エラー: 1 指示に従っていない: 1 応答時間(平均)15.27s 応答時間(最大)43.55s 応答時間(合計)259.55s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 74.1%
不安定なテスト: 1…
出力トークン: 1,763
推論トークン: 83,782
応答時間: 平均 15.27s · 合計 259.55s · 最大 43.55s
|
||||||
| #30#30 | Step 3.5 Flashmedium | 7.9… | Stepfun | $0.000… | 26.78s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 3 不正解: 3 応答時間(平均)26.78s 応答時間(最大)170.45s 応答時間(合計)294.58s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 6
試行ごとの合格率: 70.6%
不安定なテスト: 2…
出力トークン: 71,904
推論トークン: 155,607
応答時間: 平均 26.78s · 合計 294.58s · 最大 170.45s
|
||||||
| #50#50 | Hunter Alphamediumアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。 | 6.7… | OpenRouter | $0.000… | 10.33s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 2 タイムアウト: 2 API エラー: 1 余分な書式: 1 応答時間(平均)10.33s 応答時間(最大)30.53s 応答時間(合計)175.60s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 10
試行ごとの合格率: 64.8%
不安定なテスト: 6…
出力トークン: 4,724
推論トークン: 17,921
応答時間: 平均 10.33s · 合計 175.60s · 最大 30.53s
|
||||||
| #51#51 | Nemotron 3 Supermedium | 6.7… | NVIDIA | $0.000… | 19.06s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 4 不正解: 3 API エラー: 1 タイムアウト: 1 応答時間(平均)19.06s 応答時間(最大)87.80s 応答時間(合計)305.04s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 9
試行ごとの合格率: 55.6%
不安定なテスト: 3…
出力トークン: 11,947
推論トークン: 29,768
応答時間: 平均 19.06s · 合計 305.04s · 最大 87.80s
|
||||||
| #72#72 | Hunter Alphanoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。 | 5.7… | OpenRouter | $0.000… | 4.58s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 API エラー: 1 応答時間(平均)4.58s 応答時間(最大)15.17s 応答時間(合計)77.92s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 12
試行ごとの合格率: 46.3%
不安定なテスト: 4…
出力トークン: 2,278
推論トークン: 0
応答時間: 平均 4.58s · 合計 77.92s · 最大 15.17s
|
||||||
| #78#78 | Trinity Large Previewnone | 5.3… | Arcee AI | $0.000… | 5.07s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 11 指示に従っていない: 2 応答時間(平均)5.07s 応答時間(最大)39.47s 応答時間(合計)91.23s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 13
試行ごとの合格率: 29.6%
不安定なテスト: 1…
出力トークン: 1,985
推論トークン: 0
応答時間: 平均 5.07s · 合計 91.23s · 最大 39.47s
|
||||||
| #81#81 | Elephantmedium | 5.2… | Openrouter | $0.000… | 1.27s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 3 無効なツール呼び出し: 1 応答時間(平均)1.27s 応答時間(最大)3.70s 応答時間(合計)22.82s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 13
試行ごとの合格率: 29.6%
不安定なテスト: 1…
出力トークン: 2,596
推論トークン: 0
応答時間: 平均 1.27s · 合計 22.82s · 最大 3.70s
|
||||||
| #85#85 | Elephantnone | 5.2… | Openrouter | $0.000… | 1.23s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 3 無効なツール呼び出し: 1 応答時間(平均)1.23s 応答時間(最大)3.81s 応答時間(合計)22.16s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 13
試行ごとの合格率: 31.5%
不安定なテスト: 1…
出力トークン: 2,573
推論トークン: 0
応答時間: 平均 1.23s · 合計 22.16s · 最大 3.81s
|
||||||
| #88#88 | Nemotron 3 Supernone | 5.1… | NVIDIA | $0.000… | 8.54s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 4 応答時間(平均)8.54s 応答時間(最大)24.97s 応答時間(合計)153.69s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 14
試行ごとの合格率: 35.2%
不安定なテスト: 4…
出力トークン: 4,760
推論トークン: 0
応答時間: 平均 8.54s · 合計 153.69s · 最大 24.97s
|
||||||
| #99#99 | Step 3.5 Flashnone | 3.0… | Stepfun | $0.000… | 0ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 API エラー: 1 応答時間(平均)0ms 応答時間(最大)0ms 応答時間(合計)0ms … |
|
モデルカードを見る
合計テスト数: 1
誤答テスト数: 1
試行ごとの合格率: 0.0%
不安定なテスト: 0…
出力トークン: 0
推論トークン: 0
応答時間: 平均 0ms · 合計 0ms · 最大 0ms
|
||||||
| #98#98 | LFM2-24B-A2Bnoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。 | 4.1… | Liquid | $0.001… | 811ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 API エラー: 4 指示に従っていない: 2 応答時間(平均)811ms 応答時間(最大)2.88s 応答時間(合計)11.35s … |
|
モデルカードを見る
合計テスト数: 16
誤答テスト数: 15
試行ごとの合格率: 14.6%
不安定なテスト: 2…
出力トークン: 1,185
推論トークン: 0
応答時間: 平均 811ms · 合計 11.35s · 最大 2.88s
|
||||||
| #48#48 | Gemma 4 31Bnone | 6.9… | $0.003… | 4.02s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 API エラー: 2 指示に従っていない: 1 応答時間(平均)4.02s 応答時間(最大)26.13s 応答時間(合計)64.33s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 8
試行ごとの合格率: 55.6%
不安定なテスト: 0…
出力トークン: 1,359
推論トークン: 0
応答時間: 平均 4.02s · 合計 64.33s · 最大 26.13s
|
||||||
| #74#74 | GLM 4.7 Flashnone | 5.6… | Z.ai | $0.003… | 3.35s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 2 無効なツール呼び出し: 1 応答時間(平均)3.35s 応答時間(最大)7.05s 応答時間(合計)36.90s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 13
試行ごとの合格率: 37.0%
不安定なテスト: 3…
出力トークン: 2,489
推論トークン: 0
応答時間: 平均 3.35s · 合計 36.90s · 最大 7.05s
|
||||||
| #90#90 | Qwen3.5-9Bnone | 4.8… | Qwen | $0.005… | 1.47s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 3 無効なツール呼び出し: 1 応答時間(平均)1.47s 応答時間(最大)5.91s 応答時間(合計)26.43s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 14
試行ごとの合格率: 24.1%
不安定なテスト: 1…
出力トークン: 3,951
推論トークン: 0
応答時間: 平均 1.47s · 合計 26.43s · 最大 5.91s
|
||||||
| #89#89 | GPT-4o-mininone | 4.9… | OpenAI | $0.005… | 2.00s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 13 指示に従っていない: 1 応答時間(平均)2.00s 応答時間(最大)7.58s 応答時間(合計)21.99s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 14
試行ごとの合格率: 22.2%
不安定なテスト: 0…
出力トークン: 1,947
推論トークン: 0
応答時間: 平均 2.00s · 合計 21.99s · 最大 7.58s
|
||||||
| #60#60 | Gemma 4 26B A4Bnone | 6.2… | $0.005… | 6.59s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 7 指示に従っていない: 3 タイムアウト: 1 応答時間(平均)6.59s 応答時間(最大)57.10s 応答時間(合計)118.61s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 11
試行ごとの合格率: 48.2%
不安定なテスト: 3…
出力トークン: 1,783
推論トークン: 0
応答時間: 平均 6.59s · 合計 118.61s · 最大 57.10s
|
||||||
| #59#59 | Qwen3.5-Flashnone | 6.2… | Qwen | $0.006… | 3.25s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 1 応答時間(平均)3.25s 応答時間(最大)13.73s 応答時間(合計)58.44s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 10
試行ごとの合格率: 46.3%
不安定なテスト: 1…
出力トークン: 4,266
推論トークン: 0
応答時間: 平均 3.25s · 合計 58.44s · 最大 13.73s
|
||||||
| #83#83 | Mistral Small 4none | 5.2… | Mistral | $0.006… | 665ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 11 指示に従っていない: 2 応答時間(平均)665ms 応答時間(最大)1.72s 応答時間(合計)11.97s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 13
試行ごとの合格率: 31.5%
不安定なテスト: 1…
出力トークン: 2,207
推論トークン: 0
応答時間: 平均 665ms · 合計 11.97s · 最大 1.72s
|
||||||
| #91#91 | Mercury 2none | 4.8… | Inception | $0.007… | 613ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 13 指示に従っていない: 1 応答時間(平均)613ms 応答時間(最大)1.27s 応答時間(合計)11.04s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 14
試行ごとの合格率: 27.8%
不安定なテスト: 2…
出力トークン: 1,625
推論トークン: 0
応答時間: 平均 613ms · 合計 11.04s · 最大 1.27s
|
||||||
| #55#55 | MiMo-V2-Omninone | 6.5… | Xiaomi | $0.007… | 1.99s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 指示に従っていない: 2 応答時間(平均)1.99s 応答時間(最大)6.81s 応答時間(合計)35.81s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 10
試行ごとの合格率: 44.4%
不安定なテスト: 0…
出力トークン: 868
推論トークン: 0
応答時間: 平均 1.99s · 合計 35.81s · 最大 6.81s
|
||||||
| #92#92 | Qwen3 Coder Nextmedium | 4.7… | Qwen | $0.008… | 10.75s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 5 タイムアウト: 1 応答時間(平均)10.75s 応答時間(最大)81.80s 応答時間(合計)129.01s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 15
試行ごとの合格率: 27.8%
不安定なテスト: 3…
出力トークン: 3,241
推論トークン: 0
応答時間: 平均 10.75s · 合計 129.01s · 最大 81.80s
|
||||||
| #87#87 | Qwen3 Coder Nextnone | 5.1… | Qwen | $0.008… | 10.18s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 12 余分な書式: 1 指示に従っていない: 1 応答時間(平均)10.18s 応答時間(最大)45.14s 応答時間(合計)122.13s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 14
試行ごとの合格率: 25.9%
不安定なテスト: 1…
出力トークン: 3,617
推論トークン: 0
応答時間: 平均 10.18s · 合計 122.13s · 最大 45.14s
|
||||||
| #95#95 | Grok 4.1 Fastnone | 4.5… | X AI | $0.009… | 1.76s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 13 指示に従っていない: 2 応答時間(平均)1.76s 応答時間(最大)5.51s 応答時間(合計)19.35s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 15
試行ごとの合格率: 24.1%
不安定なテスト: 3…
出力トークン: 1,721
推論トークン: 0
応答時間: 平均 1.76s · 合計 19.35s · 最大 5.51s
|
||||||
| #84#84 | gpt-oss-120bnone | 5.2… | OpenAI | $0.009… | 11.96s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 6 指示に従っていない: 5 API エラー: 3 応答時間(平均)11.96s 応答時間(最大)68.97s 応答時間(合計)179.34s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 14
試行ごとの合格率: 38.9%
不安定なテスト: 5…
出力トークン: 44,652
推論トークン: 0
応答時間: 平均 11.96s · 合計 179.34s · 最大 68.97s
|
||||||
| #96#96 | GPT-5.4 Nanonone | 4.5… | OpenAI | $0.009… | 1.40s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 13 指示に従っていない: 3 応答時間(平均)1.40s 応答時間(最大)3.84s 応答時間(合計)25.14s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 16
試行ごとの合格率: 31.5%
不安定なテスト: 7…
出力トークン: 2,762
推論トークン: 0
応答時間: 平均 1.40s · 合計 25.14s · 最大 3.84s
|
||||||
| #68#68 | gpt-oss-120bmedium | 5.8… | OpenAI | $0.011… | 16.08s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 7 指示に従っていない: 4 応答時間(平均)16.08s 応答時間(最大)50.92s 応答時間(合計)176.88s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 11
試行ごとの合格率: 51.9%
不安定なテスト: 6…
出力トークン: 13,493
推論トークン: 36,879
応答時間: 平均 16.08s · 合計 176.88s · 最大 50.92s
|
||||||
| #62#62 | Gemini 2.5 Flashnone | 6.2… | $0.013… | 903ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 1 応答時間(平均)903ms 応答時間(最大)4.39s 応答時間(合計)16.26s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 11
試行ごとの合格率: 44.4%
不安定なテスト: 2…
出力トークン: 1,726
推論トークン: 0
応答時間: 平均 903ms · 合計 16.26s · 最大 4.39s
|
||||||
| #63#63 | Qwen3.5-35B-A3Bnone | 6.1… | Qwen | $0.016… | 3.82s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 応答時間(平均)3.82s 応答時間(最大)47.43s 応答時間(合計)68.74s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 11
試行ごとの合格率: 50.0%
不安定なテスト: 3…
出力トークン: 4,300
推論トークン: 0
応答時間: 平均 3.82s · 合計 68.74s · 最大 47.43s
|
||||||
| #29#29 | Gemini 3.1 Flash Lite Previewnone | 7.9… | $0.016… | 1.30s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 2 応答時間(平均)1.30s 応答時間(最大)3.39s 応答時間(合計)23.42s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 6
試行ごとの合格率: 70.4%
不安定なテスト: 1…
出力トークン: 5,361
推論トークン: 0
応答時間: 平均 1.30s · 合計 23.42s · 最大 3.39s
|
||||||
| #64#64 | DeepSeek V3.2none | 6.1… | DeepSeek | $0.016… | 12.09s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 余分な書式: 2 無効なツール呼び出し: 1 応答時間(平均)12.09s 応答時間(最大)115.89s 応答時間(合計)217.56s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 11
試行ごとの合格率: 50.0%
不安定なテスト: 4…
出力トークン: 8,384
推論トークン: 0
応答時間: 平均 12.09s · 合計 217.56s · 最大 115.89s
|
||||||
| #67#67 | Qwen3.5-27Bnone | 5.9… | Qwen | $0.016… | 1.74s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 2 応答時間(平均)1.74s 応答時間(最大)9.39s 応答時間(合計)31.32s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 12
試行ごとの合格率: 38.9%
不安定なテスト: 2…
出力トークン: 3,545
推論トークン: 0
応答時間: 平均 1.74s · 合計 31.32s · 最大 9.39s
|
||||||
| #61#61 | Seed-2.0-Litenone | 6.2… | Bytedance Seed | $0.016… | 2.53s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 応答時間(平均)2.53s 応答時間(最大)6.70s 応答時間(合計)45.46s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 10
試行ごとの合格率: 55.6%
不安定なテスト: 5…
出力トークン: 3,129
推論トークン: 0
応答時間: 平均 2.53s · 合計 45.46s · 最大 6.70s
|
||||||
| #76#76 | Kimi K2.5none | 5.5… | Moonshot AI | $0.017… | 13.37s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 12 応答時間(平均)13.37s 応答時間(最大)42.13s 応答時間(合計)147.05s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 12
試行ごとの合格率: 40.7%
不安定なテスト: 3…
出力トークン: 2,659
推論トークン: 0
応答時間: 平均 13.37s · 合計 147.05s · 最大 42.13s
|
||||||
| #49#49 | Qwen3.5 Plus 2026-02-15none | 6.8… | Qwen | $0.017… | 2.60s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 応答時間(平均)2.60s 応答時間(最大)6.65s 応答時間(合計)31.23s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 9
試行ごとの合格率: 53.7%
不安定なテスト: 2…
出力トークン: 2,461
推論トークン: 0
応答時間: 平均 2.60s · 合計 31.23s · 最大 6.65s
|
||||||
| #14#14 | Gemma 4 31Bmedium | 8.3… | $0.018… | 24.88s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 API エラー: 2 指示に従っていない: 1 タイムアウト: 1 不正解: 1 応答時間(平均)24.88s 応答時間(最大)70.97s 応答時間(合計)398.13s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 79.6%
不安定なテスト: 2…
出力トークン: 12,734
推論トークン: 27,950
応答時間: 平均 24.88s · 合計 398.13s · 最大 70.97s
|
||||||
| #53#53 | GLM 5none | 6.6… | Z.ai | $0.020… | 4.23s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 応答時間(平均)4.23s 応答時間(最大)11.07s 応答時間(合計)46.51s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 9
試行ごとの合格率: 51.9%
不安定なテスト: 1…
出力トークン: 1,959
推論トークン: 0
応答時間: 平均 4.23s · 合計 46.51s · 最大 11.07s
|
||||||
| #21#21 | Gemini 3 Flash Previewnone | 8.1… | $0.021… | 1.65s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 応答時間(平均)1.65s 応答時間(最大)3.56s 応答時間(合計)18.20s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 77.8%
不安定なテスト: 2…
出力トークン: 1,840
推論トークン: 0
応答時間: 平均 1.65s · 合計 18.20s · 最大 3.56s
|
||||||
| #70#70 | Qwen3.5-122B-A10Bnone | 5.7… | Qwen | $0.022… | 3.69s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 11 指示に従っていない: 1 応答時間(平均)3.69s 応答時間(最大)46.00s 応答時間(合計)66.50s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 12
試行ごとの合格率: 38.9%
不安定なテスト: 2…
出力トークン: 3,341
推論トークン: 0
応答時間: 平均 3.69s · 合計 66.50s · 最大 46.00s
|
||||||
| #22#22 | Gemini 3.1 Flash Lite Previewlow | 8.1… | $0.022… | 3.22s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 1 応答時間(平均)3.22s 応答時間(最大)11.91s 応答時間(合計)58.00s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 72.2%
不安定なテスト: 0…
出力トークン: 2,247
推論トークン: 8,058
応答時間: 平均 3.22s · 合計 58.00s · 最大 11.91s
|
||||||
| #94#94 | MiMo-V2-Flashnone | 4.5… | Xiaomi | $0.023… | 2.79s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 12 API エラー: 1 余分な書式: 1 指示に従っていない: 1 応答時間(平均)2.79s 応答時間(最大)19.68s 応答時間(合計)39.08s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 15
試行ごとの合格率: 27.8%
不安定なテスト: 5…
出力トークン: 68,522
推論トークン: 0
応答時間: 平均 2.79s · 合計 39.08s · 最大 19.68s
|
||||||
| #24#24 | Gemma 4 26B A4Bmedium | 8.0… | $0.028… | 25.03s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 2 不正解: 2 指示に従っていない: 1 応答時間(平均)25.03s 応答時間(最大)147.47s 応答時間(合計)425.48s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 75.9%
不安定なテスト: 2…
出力トークン: 15,928
推論トークン: 44,631
応答時間: 平均 25.03s · 合計 425.48s · 最大 147.47s
|
||||||
| #27#27 | DeepSeek V3.2medium | 8.0… | DeepSeek | $0.029… | 46.41s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 タイムアウト: 2 指示に従っていない: 1 応答時間(平均)46.41s 応答時間(最大)180.92s 応答時間(合計)835.33s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 6
試行ごとの合格率: 79.6%
不安定なテスト: 4…
出力トークン: 10,620
推論トークン: 48,511
応答時間: 平均 46.41s · 合計 835.33s · 最大 180.92s
|
||||||
| #97#97 | Qwen3.5-9Bmedium | 4.4… | Qwen | $0.030… | 73.64s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 11 指示に従っていない: 2 余分な書式: 1 不正解: 1 応答時間(平均)73.64s 応答時間(最大)226.38s 応答時間(合計)1104.60s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 15
試行ごとの合格率: 33.3%
不安定なテスト: 6…
出力トークン: 24,291
推論トークン: 172,597
応答時間: 平均 73.64s · 合計 1104.60s · 最大 226.38s
|
||||||
| #77#77 | GLM 5 Turbonone | 5.5… | Z.ai | $0.032… | 2.94s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 2 応答時間(平均)2.94s 応答時間(最大)8.21s 応答時間(合計)52.98s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 12
試行ごとの合格率: 37.0%
不安定なテスト: 2…
出力トークン: 1,775
推論トークン: 0
応答時間: 平均 2.94s · 合計 52.98s · 最大 8.21s
|
||||||
| #86#86 | GPT-5.4 Mininone | 5.1… | OpenAI | $0.032… | 1.17s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 3 応答時間(平均)1.17s 応答時間(最大)2.52s 応答時間(合計)21.01s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 13
試行ごとの合格率: 35.2%
不安定なテスト: 3…
出力トークン: 2,418
推論トークン: 0
応答時間: 平均 1.17s · 合計 21.01s · 最大 2.52s
|
||||||
| #73#73 | Mistral Small 4medium | 5.7… | Mistral | $0.034… | 5.64s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 指示に従っていない: 3 API エラー: 2 応答時間(平均)5.64s 応答時間(最大)30.49s 応答時間(合計)101.52s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 13
試行ごとの合格率: 50.0%
不安定なテスト: 7…
出力トークン: 15,084
推論トークン: 39,408
応答時間: 平均 5.64s · 合計 101.52s · 最大 30.49s
|
||||||
| #39#39 | Seed-2.0-Minimedium | 7.5… | Bytedance Seed | $0.037… | 69.70s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 4 不正解: 2 指示に従っていない: 1 応答時間(平均)69.70s 応答時間(最大)262.83s 応答時間(合計)1045.47s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 7
試行ごとの合格率: 66.7%
不安定なテスト: 2…
出力トークン: 2,419
推論トークン: 79,238
応答時間: 平均 69.70s · 合計 1045.47s · 最大 262.83s
|
||||||
| #41#41 | MiMo-V2-Flashmedium | 7.5… | Xiaomi | $0.038… | 23.36s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 API エラー: 1 余分な書式: 1 指示に従っていない: 1 タイムアウト: 1 応答時間(平均)23.36s 応答時間(最大)96.01s 応答時間(合計)280.34s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 7
試行ごとの合格率: 70.4%
不安定なテスト: 3…
出力トークン: 12,387
推論トークン: 115,182
応答時間: 平均 23.36s · 合計 280.34s · 最大 96.01s
|
||||||
| #69#69 | Kimi K2.6none | 5.8… | Moonshot AI | $0.038… | 2.05s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 指示に従っていない: 3 応答時間(平均)2.05s 応答時間(最大)6.65s 応答時間(合計)36.93s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 11
試行ごとの合格率: 42.6%
不安定なテスト: 2…
出力トークン: 2,973
推論トークン: 0
応答時間: 平均 2.05s · 合計 36.93s · 最大 6.65s
|
||||||
| #65#65 | MiMo-V2-Pronone | 6.0… | Xiaomi | $0.043… | 2.39s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 応答時間(平均)2.39s 応答時間(最大)6.58s 応答時間(合計)43.06s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 11
試行ごとの合格率: 48.2%
不安定なテスト: 3…
出力トークン: 2,320
推論トークン: 0
応答時間: 平均 2.39s · 合計 43.06s · 最大 6.58s
|
||||||
| #58#58 | GLM 5V Turbonone | 6.2… | Z.ai | $0.044… | 3.10s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 指示に従っていない: 2 応答時間(平均)3.10s 応答時間(最大)6.51s 応答時間(合計)55.87s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 10
試行ごとの合格率: 44.4%
不安定なテスト: 0…
出力トークン: 1,724
推論トークン: 0
応答時間: 平均 3.10s · 合計 55.87s · 最大 6.51s
|
||||||
| #93#93 | GLM 4.7 Flashmedium | 4.6… | Z.ai | $0.046… | 32.33s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 指示に従っていない: 2 回答なし: 2 無効なツール呼び出し: 1 タイムアウト: 1 応答時間(平均)32.33s 応答時間(最大)174.55s 応答時間(合計)355.65s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 14
試行ごとの合格率: 38.9%
不安定なテスト: 8…
出力トークン: 39,688
推論トークン: 72,401
応答時間: 平均 32.33s · 合計 355.65s · 最大 174.55s
|
||||||
| #54#54 | Mercury 2medium | 6.5… | Inception | $0.047… | 2.21s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 6 指示に従っていない: 4 応答時間(平均)2.21s 応答時間(最大)14.63s 応答時間(合計)37.51s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 10
試行ごとの合格率: 53.7%
不安定なテスト: 3…
出力トークン: 3,972
推論トークン: 48,333
応答時間: 平均 2.21s · 合計 37.51s · 最大 14.63s
|
||||||
| #75#75 | GLM 5.1none | 5.6… | Z.ai | $0.053… | 4.33s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 2 無効なツール呼び出し: 1 応答時間(平均)4.33s 応答時間(最大)32.57s 応答時間(合計)78.02s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 13
試行ごとの合格率: 37.0%
不安定なテスト: 4…
出力トークン: 3,720
推論トークン: 0
応答時間: 平均 4.33s · 合計 78.02s · 最大 32.57s
|
||||||
| #17#17 | Gemini 3.1 Flash Lite Previewmedium | 8.2… | $0.055… | 3.74s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 1 応答時間(平均)3.74s 応答時間(最大)14.93s 応答時間(合計)67.31s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 72.2%
不安定なテスト: 0…
出力トークン: 2,168
推論トークン: 29,030
応答時間: 平均 3.74s · 合計 67.31s · 最大 14.93s
|
||||||
| #52#52 | Grok 4.1 Fastmedium | 6.7… | X AI | $0.056… | 23.88s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 4 不正解: 3 回答なし: 1 タイムアウト: 1 応答時間(平均)23.88s 応答時間(最大)121.79s 応答時間(合計)262.66s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 9
試行ごとの合格率: 64.8%
不安定なテスト: 6…
出力トークン: 2,010
推論トークン: 91,298
応答時間: 平均 23.88s · 合計 262.66s · 最大 121.79s
|
||||||
| #57#57 | GPT-5 Nanomedium | 6.3… | OpenAI | $0.066… | 44.13s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 7 指示に従っていない: 3 タイムアウト: 1 応答時間(平均)44.13s 応答時間(最大)204.02s 応答時間(合計)485.47s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 11
試行ごとの合格率: 59.3%
不安定なテスト: 8…
出力トークン: 4,980
推論トークン: 156,288
応答時間: 平均 44.13s · 合計 485.47s · 最大 204.02s
|
||||||
| #32#32 | Qwen3.5-Flashmedium | 7.8… | Qwen | $0.080… | 66.72s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 4 API エラー: 1 指示に従っていない: 1 不正解: 1 応答時間(平均)66.72s 応答時間(最大)234.29s 応答時間(合計)1201.03s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 7
試行ごとの合格率: 81.5%
不安定なテスト: 6…
出力トークン: 2,073
推論トークン: 191,899
応答時間: 平均 66.72s · 合計 1201.03s · 最大 234.29s
|
||||||
| #38#38 | GPT-5.4 Nanomedium | 7.6… | OpenAI | $0.083… | 11.21s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 3 応答時間(平均)11.21s 応答時間(最大)94.06s 応答時間(合計)201.80s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 7
試行ごとの合格率: 68.5%
不安定なテスト: 2…
出力トークン: 2,946
推論トークン: 58,132
応答時間: 平均 11.21s · 合計 201.80s · 最大 94.06s
|
||||||
| #79#79 | Grok 4.20 Betanoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。 | 5.3… | X AI | $0.091… | 1.19s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 3 無効なツール呼び出し: 1 応答時間(平均)1.19s 応答時間(最大)6.48s 応答時間(合計)21.37s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 14
試行ごとの合格率: 29.6%
不安定なテスト: 2…
出力トークン: 1,591
推論トークン: 0
応答時間: 平均 1.19s · 合計 21.37s · 最大 6.48s
|
||||||
| #5#5 | Gemini 3 Flash Previewlow | 8.8… | $0.091… | 6.01s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 応答時間(平均)6.01s 応答時間(最大)14.72s 応答時間(合計)108.12s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 3
試行ごとの合格率: 85.2%
不安定なテスト: 1…
出力トークン: 2,018
推論トークン: 23,273
応答時間: 平均 6.01s · 合計 108.12s · 最大 14.72s
|
||||||
| #80#80 | MiniMax M2.7medium | 5.3… | Minimax | $0.091… | 31.08s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 6 不正解: 5 タイムアウト: 2 無効なツール呼び出し: 1 応答時間(平均)31.08s 応答時間(最大)117.04s 応答時間(合計)528.37s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 14
試行ごとの合格率: 51.9%
不安定なテスト: 10…
出力トークン: 4,984
推論トークン: 62,787
応答時間: 平均 31.08s · 合計 528.37s · 最大 117.04s
|
||||||
| #82#82 | Grok 4.20none | 5.2… | X AI | $0.095… | 1.11s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 余分な書式: 1 無効なツール呼び出し: 1 応答時間(平均)1.11s 応答時間(最大)6.04s 応答時間(合計)20.02s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 13
試行ごとの合格率: 29.6%
不安定なテスト: 1…
出力トークン: 1,967
推論トークン: 0
応答時間: 平均 1.11s · 合計 20.02s · 最大 6.04s
|
||||||
| #66#66 | GPT-5.4none | 5.9… | OpenAI | $0.104… | 1.51s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 1 応答時間(平均)1.51s 応答時間(最大)2.95s 応答時間(合計)27.21s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 11
試行ごとの合格率: 42.6%
不安定なテスト: 2…
出力トークン: 2,317
推論トークン: 0
応答時間: 平均 1.51s · 合計 27.21s · 最大 2.95s
|
||||||
| #6#6 | Seed-2.0-Litemedium | 8.6… | Bytedance Seed | $0.121… | 30.37s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 2 応答時間(平均)30.37s 応答時間(最大)168.71s 応答時間(合計)546.72s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 83.3%
不安定なテスト: 3…
出力トークン: 3,257
推論トークン: 52,042
応答時間: 平均 30.37s · 合計 546.72s · 最大 168.71s
|
||||||
| #45#45 | GPT-5 Minimedium | 7.0… | OpenAI | $0.128… | 23.98s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 4 不正解: 4 タイムアウト: 1 応答時間(平均)23.98s 応答時間(最大)88.15s 応答時間(合計)431.56s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 9
試行ごとの合格率: 61.1%
不安定なテスト: 3…
出力トークン: 6,379
推論トークン: 53,482
応答時間: 平均 23.98s · 合計 431.56s · 最大 88.15s
|
||||||
| #35#35 | MiMo-V2-Omnimedium | 7.7… | Xiaomi | $0.153… | 16.76s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 2 余分な書式: 1 回答なし: 1 応答時間(平均)16.76s 応答時間(最大)158.78s 応答時間(合計)301.61s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 7
試行ごとの合格率: 61.1%
不安定なテスト: 0…
出力トークン: 928
推論トークン: 72,661
応答時間: 平均 16.76s · 合計 301.61s · 最大 158.78s
|
||||||
| #13#13 | GLM 5medium | 8.4… | Z.ai | $0.155… | 23.34s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 2 指示に従っていない: 1 回答なし: 1 タイムアウト: 1 応答時間(平均)23.34s 応答時間(最大)79.09s 応答時間(合計)233.40s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 85.2%
不安定なテスト: 4…
出力トークン: 20,163
推論トークン: 58,337
応答時間: 平均 23.34s · 合計 233.40s · 最大 79.09s
|
||||||
| #23#23 | MiMo-V2-Promedium | 8.1… | Xiaomi | $0.159… | 12.27s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 余分な書式: 1 指示に従っていない: 1 タイムアウト: 1 応答時間(平均)12.27s 応答時間(最大)64.71s 応答時間(合計)208.56s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 6
試行ごとの合格率: 77.8%
不安定なテスト: 3…
出力トークン: 2,360
推論トークン: 38,320
応答時間: 平均 12.27s · 合計 208.56s · 最大 64.71s
|
||||||
| #18#18 | GLM 5 Turbomedium | 8.1… | Z.ai | $0.182… | 17.67s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 2 タイムアウト: 1 応答時間(平均)17.67s 応答時間(最大)194.23s 応答時間(合計)317.98s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 6
試行ごとの合格率: 77.8%
不安定なテスト: 5…
出力トークン: 12,197
推論トークン: 38,933
応答時間: 平均 17.67s · 合計 317.98s · 最大 194.23s
|
||||||
| #12#12 | Gemini 3 PRO Previewmedium | 8.4… | $0.197… | 9.06s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 API エラー: 1 応答時間(平均)9.06s 応答時間(最大)26.24s 応答時間(合計)90.58s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 4
試行ごとの合格率: 77.8%
不安定なテスト: 0…
出力トークン: 1,508
推論トークン: 10,084
応答時間: 平均 9.06s · 合計 90.58s · 最大 26.24s
|
||||||
| #33#33 | GLM 5.1medium | 7.8… | Z.ai | $0.201… | 24.13s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 タイムアウト: 2 API エラー: 1 応答時間(平均)24.13s 応答時間(最大)118.52s 応答時間(合計)410.25s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 6
試行ごとの合格率: 75.9%
不安定なテスト: 3…
出力トークン: 8,005
推論トークン: 49,090
応答時間: 平均 24.13s · 合計 410.25s · 最大 118.52s
|
||||||
| #8#8 | Qwen3.5 Plus 2026-02-15medium | 8.5… | Qwen | $0.220… | 46.56s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 2 不正解: 2 応答時間(平均)46.56s 応答時間(最大)120.91s 応答時間(合計)512.20s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 4
試行ごとの合格率: 83.3%
不安定なテスト: 2…
出力トークン: 2,121
推論トークン: 111,889
応答時間: 平均 46.56s · 合計 512.20s · 最大 120.91s
|
||||||
| #46#46 | Kimi K2.5medium | 7.0… | Moonshot AI | $0.220… | 72.43s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 2 タイムアウト: 2 回答なし: 1 応答時間(平均)72.43s 応答時間(最大)150.77s 応答時間(合計)796.70s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 9
試行ごとの合格率: 72.2%
不安定なテスト: 7…
出力トークン: 42,176
推論トークン: 84,870
応答時間: 平均 72.43s · 合計 796.70s · 最大 150.77s
|
||||||
| #71#71 | MiniMax M2.5medium | 5.7… | Minimax | $0.250… | 39.65s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 タイムアウト: 4 指示に従っていない: 3 無効なツール呼び出し: 1 応答時間(平均)39.65s 応答時間(最大)237.27s 応答時間(合計)396.47s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 13
試行ごとの合格率: 57.4%
不安定なテスト: 10…
出力トークン: 107,044
推論トークン: 206,422
応答時間: 平均 39.65s · 合計 396.47s · 最大 237.27s
|
||||||
| #42#42 | Claude Sonnet 4.6none | 7.4… | Anthropic | $0.262… | 4.98s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 余分な書式: 3 不正解: 3 指示に従っていない: 1 応答時間(平均)4.98s 応答時間(最大)23.84s 応答時間(合計)54.83s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 7
試行ごとの合格率: 64.8%
不安定なテスト: 1…
出力トークン: 7,433
推論トークン: 0
応答時間: 平均 4.98s · 合計 54.83s · 最大 23.84s
|
||||||
| #31#31 | GLM 5V Turbomedium | 7.8… | Z.ai | $0.291… | 14.96s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 2 無効なツール呼び出し: 2 応答時間(平均)14.96s 応答時間(最大)67.08s 応答時間(合計)269.32s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 7
試行ごとの合格率: 77.8%
不安定なテスト: 6…
出力トークン: 2,351
推論トークン: 58,941
応答時間: 平均 14.96s · 合計 269.32s · 最大 67.08s
|
||||||
| #28#28 | GPT-5.2 Chatnone | 7.9… | OpenAI | $0.291… | 6.84s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 指示に従っていない: 1 応答時間(平均)6.84s 応答時間(最大)38.52s 応答時間(合計)123.17s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 6
試行ごとの合格率: 75.9%
不安定なテスト: 3…
出力トークン: 17,346
推論トークン: 0
応答時間: 平均 6.84s · 合計 123.17s · 最大 38.52s
|
||||||
| #44#44 | GPT-5.4 Minimedium | 7.3… | OpenAI | $0.299… | 15.22s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 5 不正解: 4 応答時間(平均)15.22s 応答時間(最大)102.91s 応答時間(合計)273.90s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 9
試行ごとの合格率: 70.4%
不安定なテスト: 6…
出力トークン: 2,131
推論トークン: 59,567
応答時間: 平均 15.22s · 合計 273.90s · 最大 102.91s
|
||||||
| #1🥇 #1 | Gemini 3 Flash Previewmedium | 10.0… | $0.314… | 17.60s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 失敗した回答はありません。 応答時間(平均)17.60s 応答時間(最大)79.71s 応答時間(合計)193.57s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 0
試行ごとの合格率: 100.0%
不安定なテスト: 0…
出力トークン: 2,072
推論トークン: 97,041
応答時間: 平均 17.60s · 合計 193.57s · 最大 79.71s
|
||||||
| #15#15 | Gemini 2.5 Flashmedium | 8.2… | $0.319… | 12.12s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 1 応答時間(平均)12.12s 応答時間(最大)95.48s 応答時間(合計)218.12s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 75.9%
不安定なテスト: 1…
出力トークン: 1,898
推論トークン: 122,273
応答時間: 平均 12.12s · 合計 218.12s · 最大 95.48s
|
||||||
| #36#36 | GPT-5.3 Chatnone | 7.7… | OpenAI | $0.340… | 5.88s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 指示に従っていない: 2 応答時間(平均)5.88s 応答時間(最大)18.33s 応答時間(合計)105.90s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 7
試行ごとの合格率: 68.5%
不安定なテスト: 3…
出力トークン: 20,784
推論トークン: 0
応答時間: 平均 5.88s · 合計 105.90s · 最大 18.33s
|
||||||
| #40#40 | GPT-5.2medium | 7.5… | OpenAI | $0.352… | 14.04s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 3 不正解: 2 回答なし: 1 タイムアウト: 1 応答時間(平均)14.04s 応答時間(最大)77.80s 応答時間(合計)154.41s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 7
試行ごとの合格率: 72.2%
不安定なテスト: 4…
出力トークン: 2,705
推論トークン: 18,977
応答時間: 平均 14.04s · 合計 154.41s · 最大 77.80s
|
||||||
| #43#43 | Qwen3.5-35B-A3Bmedium | 7.4… | Qwen | $0.398… | 44.51s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 4 不正解: 2 API エラー: 1 回答なし: 1 応答時間(平均)44.51s 応答時間(最大)106.00s 応答時間(合計)801.21s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 8
試行ごとの合格率: 79.6%
不安定なテスト: 7…
出力トークン: 10,137
推論トークン: 208,761
応答時間: 平均 44.51s · 合計 801.21s · 最大 106.00s
|
||||||
| #3🥉 #3 | Claude Opus 4.7medium | 9.2… | Anthropic | $0.447… | 3.53s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 1 不正解: 1 応答時間(平均)3.53s 応答時間(最大)21.45s 応答時間(合計)60.03s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 2
試行ごとの合格率: 88.9%
不安定なテスト: 0…
出力トークン: 5,375
推論トークン: 1,341
応答時間: 平均 3.53s · 合計 60.03s · 最大 21.45s
|
||||||
| #10#10 | Qwen3.5-27Bmedium | 8.4… | Qwen | $0.497… | 53.03s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 2 余分な書式: 1 タイムアウト: 1 不正解: 1 応答時間(平均)53.03s 応答時間(最大)163.96s 応答時間(合計)954.46s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 81.5%
不安定なテスト: 3…
出力トークン: 2,500
推論トークン: 242,500
応答時間: 平均 53.03s · 合計 954.46s · 最大 163.96s
|
||||||
| #4#4 | Claude Opus 4.7none | 9.2… | Anthropic | $0.505… | 3.13s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 2 応答時間(平均)3.13s 応答時間(最大)18.27s 応答時間(合計)56.33s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 2
試行ごとの合格率: 88.9%
不安定なテスト: 0…
出力トークン: 6,326
推論トークン: 0
応答時間: 平均 3.13s · 合計 56.33s · 最大 18.27s
|
||||||
| #19#19 | Qwen3.5-122B-A10Bmedium | 8.1… | Qwen | $0.528… | 31.38s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 タイムアウト: 2 応答時間(平均)31.38s 応答時間(最大)119.29s 応答時間(合計)564.84s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 79.6%
不安定なテスト: 3…
出力トークン: 17,635
推論トークン: 162,668
応答時間: 平均 31.38s · 合計 564.84s · 最大 119.29s
|
||||||
| #7#7 | GPT-5.3-Codexmedium | 8.6… | OpenAI | $0.573… | 15.38s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 2 応答時間(平均)15.38s 応答時間(最大)100.93s 応答時間(合計)276.91s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 83.3%
不安定なテスト: 3…
出力トークン: 2,279
推論トークン: 35,179
応答時間: 平均 15.38s · 合計 276.91s · 最大 100.93s
|
||||||
| #2🥈 #2 | Gemini 3.1 Pro Previewmedium | 9.6… | $0.578… | 15.96s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 1 応答時間(平均)15.96s 応答時間(最大)40.61s 応答時間(合計)175.52s … | |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 1
試行ごとの合格率: 94.4%
不安定なテスト: 0…
出力トークン: 1,932
推論トークン: 40,542
応答時間: 平均 15.96s · 合計 175.52s · 最大 40.61s
|
||||||
| #25#25 | Grok 4.20 Betamediumアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。 | 8.0… | X AI | $0.633… | 9.81s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 3 不正解: 3 応答時間(平均)9.81s 応答時間(最大)31.36s 応答時間(合計)176.62s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 6
試行ごとの合格率: 74.1%
不安定なテスト: 2…
出力トークン: 1,568
推論トークン: 91,909
応答時間: 平均 9.81s · 合計 176.62s · 最大 31.36s
|
||||||
| #34#34 | Kimi K2.6medium | 7.7… | Moonshot AI | $0.722… | 45.20s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 3 タイムアウト: 2 不正解: 2 応答時間(平均)45.20s 応答時間(最大)215.85s 応答時間(合計)768.37s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 7
試行ごとの合格率: 74.1%
不安定なテスト: 4…
出力トークン: 80,759
推論トークン: 179,814
応答時間: 平均 45.20s · 合計 768.37s · 最大 215.85s
|
||||||
| #47#47 | Grok 4.20medium | 7.0… | X AI | $0.743… | 10.33s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 4 不正解: 3 API エラー: 1 余分な書式: 1 応答時間(平均)10.33s 応答時間(最大)29.87s 応答時間(合計)185.87s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 9
試行ごとの合格率: 66.7%
不安定なテスト: 5…
出力トークン: 1,744
推論トークン: 109,882
応答時間: 平均 10.33s · 合計 185.87s · 最大 29.87s
|
||||||
| #16#16 | GPT-5.4medium | 8.2… | OpenAI | $0.832… | 18.63s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 2 応答時間(平均)18.63s 応答時間(最大)100.41s 応答時間(合計)335.26s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 79.6%
不安定なテスト: 3…
出力トークン: 2,169
推論トークン: 48,732
応答時間: 平均 18.63s · 合計 335.26s · 最大 100.41s
|
||||||
| #26#26 | Claude Sonnet 4.6medium | 8.0… | Anthropic | $1.161… | 12.66s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 余分な書式: 2 不正解: 2 タイムアウト: 1 応答時間(平均)12.66s 応答時間(最大)46.35s 応答時間(合計)126.62s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 5
試行ごとの合格率: 74.1%
不安定なテスト: 1…
出力トークン: 42,068
推論トークン: 26,784
応答時間: 平均 12.66s · 合計 126.62s · 最大 46.35s
|
||||||
| #37#37 | Claude Opus 4.6medium | 7.6… | Anthropic | $1.446… | 21.08s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 余分な書式: 4 不正解: 2 応答時間(平均)21.08s 応答時間(最大)83.40s 応答時間(合計)231.84s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 6
試行ごとの合格率: 70.4%
不安定なテスト: 2…
出力トークン: 29,829
推論トークン: 18,938
応答時間: 平均 21.08s · 合計 231.84s · 最大 83.40s
|
||||||
| #11#11 | Gemini 3.1 Flash Lite Previewhighアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。 | 8.4… | $2.310… | 68.83s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 1 応答時間(平均)68.83s 応答時間(最大)280.52s 応答時間(合計)1101.32s … | |
|
モデルカードを見る
合計テスト数: 16
誤答テスト数: 4
試行ごとの合格率: 77.1%
不安定なテスト: 1…
出力トークン: 1,283
推論トークン: 1,533,310
応答時間: 平均 68.83s · 合計 1101.32s · 最大 280.52s
|
||||||
| #56#56 | Grok 4.20 Multi Agent Betamediumアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。 | 6.4… | X AI | $5.074… | 9.80s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 4 不正解: 3 API エラー: 2 余分な書式: 2 応答時間(平均)9.80s 応答時間(最大)35.28s 応答時間(合計)156.75s … |
|
モデルカードを見る
合計テスト数: 18
誤答テスト数: 11
試行ごとの合格率: 57.4%
不安定なテスト: 6…
出力トークン: 299,034
推論トークン: 309,670
応答時間: 平均 9.80s · 合計 156.75s · 最大 35.28s
|
||||||
クイック比較
Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro PreviewmediumGemini 3 Flash PreviewmediumvsClaude Opus 4.7mediumGemini 3 Flash PreviewmediumvsClaude Opus 4.7noneGemini 3 Flash PreviewmediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewmediumvsSeed-2.0-LitemediumGemini 3 Flash PreviewmediumvsGPT-5.3-CodexmediumGemini 3 Flash PreviewmediumvsQwen3.6 Plus Previewmedium無料で利用可能Gemini 3.1 Pro PreviewmediumvsClaude Opus 4.7mediumClaude Opus 4.7mediumvsClaude Opus 4.7noneClaude Opus 4.7nonevsGemini 3 Flash PreviewlowGemini 3 Flash PreviewlowvsSeed-2.0-LitemediumSeed-2.0-LitemediumvsGPT-5.3-Codexmedium