AI BENCHY
AIベンチマーク リーダーボード
AI BENCHY のベンチマーク リーダーボードで最先端(SOTA)AIモデルを追跡し、スコア・推論品質・信頼性・コスト効率で今どのモデルが上位かを簡単に確認できます。 並び替え: 合計コスト ↑.
ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-03-06
評価済みモデル数: 55
0/0
利用可能なデータがありません。
| 順位 | モデル | 企業 | スコア 全ベンチマークテストの平均スコア。 | 結果あたりのコスト ベンチマークで正解1件あたりの平均コストをセント単位で表示します(低いほど良い)。 | 合計コスト | 応答時間(平均) 応答時間(平均) | 正解テスト 完全合格したテスト数(全実行で合格)を示します。 |
|---|---|---|---|---|---|---|---|
| 🥇 #1 | Step 3.5 Flashmedium | Stepfun | 7.4… | 0.000… | $0.000… | 29.10s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 3 不正解: 3 応答時間(平均)29.10s 応答時間(最大)170.45s 応答時間(合計)290.96s … |
|
合計テスト数: 16
誤答テスト数: 6
試行ごとの合格率: 68.8%
不安定なテスト: 2…
出力トークン: 71,452
推論トークン: 155,147
応答時間: 平均 29.10s · 合計 290.96s · 最大 170.45s
指示に従っていない: 3 不正解: 3
|
|||||||
| 🥈 #2 | Trinity Large Previewnone | Arcee AI | 4.2… | 0.000… | $0.000… | 3.15s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 応答時間(平均)3.15s 応答時間(最大)8.91s 応答時間(合計)50.46s … |
|
合計テスト数: 16
誤答テスト数: 11
試行ごとの合格率: 33.3%
不安定なテスト: 1…
出力トークン: 1,837
推論トークン: 0
応答時間: 平均 3.15s · 合計 50.46s · 最大 8.91s
不正解: 9 指示に従っていない: 2
|
|||||||
| 🥉 #3 | LFM2-24B-A2Bnone | Liquid | 2.6… | 0.047… | $0.001… | 811ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 API エラー: 4 指示に従っていない: 2 応答時間(平均)811ms 応答時間(最大)2.88s 応答時間(合計)11.35s … |
|
合計テスト数: 16
誤答テスト数: 15
試行ごとの合格率: 14.6%
不安定なテスト: 2…
出力トークン: 1,185
推論トークン: 0
応答時間: 平均 811ms · 合計 11.35s · 最大 2.88s
不正解: 9 API エラー: 4 指示に従っていない: 2
|
|||||||
| #4 | GLM 4.7 Flashnone | Z.ai | 3.9… | 0.066… | $0.003… | 2.99s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 invalid tool call: 1 応答時間(平均)2.99s 応答時間(最大)7.05s 応答時間(合計)26.90s … |
|
合計テスト数: 16
誤答テスト数: 12
試行ごとの合格率: 35.4%
不安定なテスト: 3…
出力トークン: 1,855
推論トークン: 0
応答時間: 平均 2.99s · 合計 26.90s · 最大 7.05s
不正解: 9 指示に従っていない: 2 common.failureReasons.invalid_tool_call: 1
|
|||||||
| #5 | GPT-4o-mininone | OpenAI | 4.0… | 0.114… | $0.005… | 2.07s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 11 指示に従っていない: 1 応答時間(平均)2.07s 応答時間(最大)7.58s 応答時間(合計)18.60s … |
|
合計テスト数: 16
誤答テスト数: 12
試行ごとの合格率: 25.0%
不安定なテスト: 0…
出力トークン: 1,594
推論トークン: 0
応答時間: 平均 2.07s · 合計 18.60s · 最大 7.58s
不正解: 11 指示に従っていない: 1
|
|||||||
| #6 | Qwen3.5-Flashnone | Qwen | 5.2… | 0.077… | $0.006… | 3.54s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 指示に従っていない: 1 応答時間(平均)3.54s 応答時間(最大)13.73s 応答時間(合計)56.70s … |
|
合計テスト数: 16
誤答テスト数: 9
試行ごとの合格率: 45.8%
不安定なテスト: 1…
出力トークン: 3,774
推論トークン: 0
応答時間: 平均 3.54s · 合計 56.70s · 最大 13.73s
不正解: 8 指示に従っていない: 1
|
|||||||
| #7 | Mercury 2none | Inception | 3.4… | 0.153… | $0.007… | 596ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 11 指示に従っていない: 1 応答時間(平均)596ms 応答時間(最大)1.27s 応答時間(合計)9.54s … |
|
合計テスト数: 16
誤答テスト数: 12
試行ごとの合格率: 31.3%
不安定なテスト: 2…
出力トークン: 1,303
推論トークン: 0
応答時間: 平均 596ms · 合計 9.54s · 最大 1.27s
不正解: 11 指示に従っていない: 1
|
|||||||
| #8 | Qwen3 Coder Nextmedium | Qwen | 3.5… | 0.230… | $0.007… | 12.53s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 指示に従っていない: 5 応答時間(平均)12.53s 応答時間(最大)81.80s 応答時間(合計)125.32s … |
|
合計テスト数: 16
誤答テスト数: 13
試行ごとの合格率: 27.1%
不安定なテスト: 2…
出力トークン: 2,935
推論トークン: 0
応答時間: 平均 12.53s · 合計 125.32s · 最大 81.80s
不正解: 8 指示に従っていない: 5
|
|||||||
| #9 | Qwen3 Coder Nextnone | Qwen | 4.0… | 0.174… | $0.007… | 11.68s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 余分な書式: 1 指示に従っていない: 1 応答時間(平均)11.68s 応答時間(最大)45.14s 応答時間(合計)116.76s … |
|
合計テスト数: 16
誤答テスト数: 12
試行ごとの合格率: 25.0%
不安定なテスト: 0…
出力トークン: 3,026
推論トークン: 0
応答時間: 平均 11.68s · 合計 116.76s · 最大 45.14s
不正解: 10 余分な書式: 1 指示に従っていない: 1
|
|||||||
| #10 | Grok 4.1 Fastnone | X AI | 2.9… | 0.247… | $0.008… | 1.90s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 11 指示に従っていない: 2 応答時間(平均)1.90s 応答時間(最大)5.51s 応答時間(合計)17.14s … |
|
合計テスト数: 16
誤答テスト数: 13
試行ごとの合格率: 25.0%
不安定なテスト: 2…
出力トークン: 1,148
推論トークン: 0
応答時間: 平均 1.90s · 合計 17.14s · 最大 5.51s
不正解: 11 指示に従っていない: 2
|
|||||||
| #11 | gpt-oss-120bmedium | OpenAI | 5.1… | 0.135… | $0.010… | 16.65s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 指示に従っていない: 4 応答時間(平均)16.65s 応答時間(最大)50.92s 応答時間(合計)149.88s … |
|
合計テスト数: 16
誤答テスト数: 9
試行ごとの合格率: 54.2%
不安定なテスト: 5…
出力トークン: 13,210
推論トークン: 34,230
応答時間: 平均 16.65s · 合計 149.88s · 最大 50.92s
不正解: 5 指示に従っていない: 4
|
|||||||
| #12 | Gemini 2.5 Flashnone | 5.2… | 0.191… | $0.012… | 923ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 1 応答時間(平均)923ms 応答時間(最大)4.39s 応答時間(合計)14.78s … | |
|
合計テスト数: 16
誤答テスト数: 10
試行ごとの合格率: 43.8%
不安定なテスト: 2…
出力トークン: 1,270
推論トークン: 0
応答時間: 平均 923ms · 合計 14.78s · 最大 4.39s
不正解: 9 指示に従っていない: 1
|
|||||||
| #13 | Qwen3.5-35B-A3Bnone | Qwen | 4.7… | 0.237… | $0.015… | 4.10s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 指示に従っていない: 2 応答時間(平均)4.10s 応答時間(最大)47.43s 応答時間(合計)65.62s … |
|
合計テスト数: 16
誤答テスト数: 10
試行ごとの合格率: 50.0%
不安定なテスト: 3…
出力トークン: 3,756
推論トークン: 0
応答時間: 平均 4.10s · 合計 65.62s · 最大 47.43s
不正解: 8 指示に従っていない: 2
|
|||||||
| #14 | Gemini 3.1 Flash Lite Previewnone | 7.1… | 0.144… | $0.015… | 1.33s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 2 応答時間(平均)1.33s 応答時間(最大)3.39s 応答時間(合計)21.27s … | |
|
合計テスト数: 16
誤答テスト数: 6
試行ごとの合格率: 66.7%
不安定なテスト: 1…
出力トークン: 4,715
推論トークン: 0
応答時間: 平均 1.33s · 合計 21.27s · 最大 3.39s
不正解: 4 指示に従っていない: 2
|
|||||||
| #15 | Kimi K2.5none | Moonshot AI | 4.1… | 0.295… | $0.015… | 11.91s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 11 応答時間(平均)11.91s 応答時間(最大)42.13s 応答時間(合計)107.16s … |
|
合計テスト数: 16
誤答テスト数: 11
試行ごとの合格率: 39.6%
不安定なテスト: 3…
出力トークン: 2,000
推論トークン: 0
応答時間: 平均 11.91s · 合計 107.16s · 最大 42.13s
不正解: 11
|
|||||||
| #16 | Qwen3.5-27Bnone | Qwen | 4.9… | 0.302… | $0.016… | 1.75s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 応答時間(平均)1.75s 応答時間(最大)9.39s 応答時間(合計)28.05s … |
|
合計テスト数: 16
誤答テスト数: 11
試行ごとの合格率: 37.5%
不安定なテスト: 2…
出力トークン: 3,161
推論トークン: 0
応答時間: 平均 1.75s · 合計 28.05s · 最大 9.39s
不正解: 9 指示に従っていない: 2
|
|||||||
| #17 | DeepSeek V3.2none | DeepSeek | 5.5… | 0.220… | $0.016… | 12.86s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 6 余分な書式: 2 invalid tool call: 1 応答時間(平均)12.86s 応答時間(最大)115.89s 応答時間(合計)205.78s … |
|
合計テスト数: 16
誤答テスト数: 9
試行ごとの合格率: 54.2%
不安定なテスト: 3…
出力トークン: 7,823
推論トークン: 0
応答時間: 平均 12.86s · 合計 205.78s · 最大 115.89s
不正解: 6 余分な書式: 2 common.failureReasons.invalid_tool_call: 1
|
|||||||
| #18 | Qwen3.5 Plus 2026-02-15none | Qwen | 6.2… | 0.172… | $0.016… | 2.65s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 7 応答時間(平均)2.65s 応答時間(最大)6.65s 応答時間(合計)26.52s … |
|
合計テスト数: 16
誤答テスト数: 7
試行ごとの合格率: 58.3%
不安定なテスト: 1…
出力トークン: 2,015
推論トークン: 0
応答時間: 平均 2.65s · 合計 26.52s · 最大 6.65s
不正解: 7
|
|||||||
| #19 | GLM 5none | Z.ai | 6.0… | 0.200… | $0.018… | 4.03s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 7 応答時間(平均)4.03s 応答時間(最大)11.07s 応答時間(合計)36.30s … |
|
合計テスト数: 16
誤答テスト数: 7
試行ごとの合格率: 56.3%
不安定なテスト: 0…
出力トークン: 1,548
推論トークン: 0
応答時間: 平均 4.03s · 合計 36.30s · 最大 11.07s
不正解: 7
|
|||||||
| #20 | Gemini 3 Flash Previewnone | 7.2… | 0.169… | $0.019… | 1.75s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 応答時間(平均)1.75s 応答時間(最大)3.56s 応答時間(合計)15.71s … | |
|
合計テスト数: 16
誤答テスト数: 5
試行ごとの合格率: 75.0%
不安定なテスト: 2…
出力トークン: 1,411
推論トークン: 0
応答時間: 平均 1.75s · 合計 15.71s · 最大 3.56s
不正解: 5
|
|||||||
| #21 | Gemini 3.1 Flash Lite Previewlow | 7.3… | 0.177… | $0.020… | 3.36s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 1 応答時間(平均)3.36s 応答時間(最大)11.91s 応答時間(合計)53.84s … | |
|
合計テスト数: 16
誤答テスト数: 5
試行ごとの合格率: 68.8%
不安定なテスト: 0…
出力トークン: 1,611
推論トークン: 7,272
応答時間: 平均 3.36s · 合計 53.84s · 最大 11.91s
不正解: 4 指示に従っていない: 1
|
|||||||
| #22 | Qwen3.5-122B-A10Bnone | Qwen | 5.0… | 0.333… | $0.020… | 3.72s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 1 応答時間(平均)3.72s 応答時間(最大)46.00s 応答時間(合計)59.46s … |
|
合計テスト数: 16
誤答テスト数: 10
試行ごとの合格率: 39.6%
不安定なテスト: 1…
出力トークン: 2,679
推論トークン: 0
応答時間: 平均 3.72s · 合計 59.46s · 最大 46.00s
不正解: 9 指示に従っていない: 1
|
|||||||
| #23 | MiMo-V2-Flashnone | Xiaomi | 2.9… | 0.743… | $0.023… | 2.97s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 API エラー: 1 余分な書式: 1 指示に従っていない: 1 応答時間(平均)2.97s 応答時間(最大)19.68s 応答時間(合計)35.60s … |
|
合計テスト数: 16
誤答テスト数: 13
試行ごとの合格率: 29.2%
不安定なテスト: 4…
出力トークン: 67,790
推論トークン: 0
応答時間: 平均 2.97s · 合計 35.60s · 最大 19.68s
不正解: 10 API エラー: 1 余分な書式: 1 指示に従っていない: 1
|
|||||||
| #24 | DeepSeek V3.2medium | DeepSeek | 7.3… | 0.225… | $0.025… | 39.48s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 1 タイムアウト: 1 応答時間(平均)39.48s 応答時間(最大)93.11s 応答時間(合計)631.71s … |
|
合計テスト数: 16
誤答テスト数: 5
試行ごとの合格率: 79.2%
不安定なテスト: 3…
出力トークン: 7,392
推論トークン: 39,089
応答時間: 平均 39.48s · 合計 631.71s · 最大 93.11s
不正解: 3 指示に従っていない: 1 タイムアウト: 1
|
|||||||
| #25 | Seed-2.0-Minimedium | Bytedance Seed | 6.9… | 0.280… | $0.028… | 65.09s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 4 指示に従っていない: 1 不正解: 1 応答時間(平均)65.09s 応答時間(最大)262.83s 応答時間(合計)846.14s … |
|
合計テスト数: 16
誤答テスト数: 6
試行ごとの合格率: 68.8%
不安定なテスト: 2…
出力トークン: 1,965
推論トークン: 58,456
応答時間: 平均 65.09s · 合計 846.14s · 最大 262.83s
タイムアウト: 4 指示に従っていない: 1 不正解: 1
|
|||||||
| #26 | MiMo-V2-Flashmedium | Xiaomi | 7.2… | 0.316… | $0.035… | 25.33s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 API エラー: 1 指示に従っていない: 1 応答時間(平均)25.33s 応答時間(最大)96.01s 応答時間(合計)253.33s … |
|
合計テスト数: 16
誤答テスト数: 5
試行ごとの合格率: 72.9%
不安定なテスト: 1…
出力トークン: 11,613
推論トークン: 106,714
応答時間: 平均 25.33s · 合計 253.33s · 最大 96.01s
不正解: 3 API エラー: 1 指示に従っていない: 1
|
|||||||
| #27 | GLM 4.7 Flashmedium | Z.ai | 3.1… | 1.040… | $0.042… | 36.84s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 7 指示に従っていない: 2 回答なし: 2 invalid tool call: 1 応答時間(平均)36.84s 応答時間(最大)174.55s 応答時間(合計)331.58s … |
|
合計テスト数: 16
誤答テスト数: 12
試行ごとの合格率: 41.7%
不安定なテスト: 7…
出力トークン: 38,682
推論トークン: 64,952
応答時間: 平均 36.84s · 合計 331.58s · 最大 174.55s
不正解: 7 指示に従っていない: 2 回答なし: 2 common.failureReasons.invalid_tool_call: 1
|
|||||||
| #28 | Mercury 2medium | Inception | 5.3… | 0.631… | $0.045… | 2.36s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 指示に従っていない: 4 応答時間(平均)2.36s 応答時間(最大)14.63s 応答時間(合計)35.39s … |
|
合計テスト数: 16
誤答テスト数: 9
試行ごとの合格率: 54.2%
不安定なテスト: 3…
出力トークン: 3,708
推論トークン: 45,921
応答時間: 平均 2.36s · 合計 35.39s · 最大 14.63s
不正解: 5 指示に従っていない: 4
|
|||||||
| #29 | Gemini 3.1 Flash Lite Previewmedium | 7.5… | 0.443… | $0.049… | 3.83s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 1 応答時間(平均)3.83s 応答時間(最大)14.93s 応答時間(合計)61.25s … | |
|
合計テスト数: 16
誤答テスト数: 5
試行ごとの合格率: 68.8%
不安定なテスト: 0…
出力トークン: 1,731
推論トークン: 25,821
応答時間: 平均 3.83s · 合計 61.25s · 最大 14.93s
不正解: 4 指示に従っていない: 1
|
|||||||
| #30 | Grok 4.1 Fastmedium | X AI | 6.2… | 0.563… | $0.051… | 26.35s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 3 不正解: 2 回答なし: 1 タイムアウト: 1 応答時間(平均)26.35s 応答時間(最大)121.79s 応答時間(合計)237.11s … |
|
合計テスト数: 16
誤答テスト数: 7
試行ごとの合格率: 66.7%
不安定なテスト: 4…
出力トークン: 1,183
推論トークン: 83,875
応答時間: 平均 26.35s · 合計 237.11s · 最大 121.79s
指示に従っていない: 3 不正解: 2 回答なし: 1 タイムアウト: 1
|
|||||||
| #31 | GPT-5 Nanomedium | OpenAI | 5.5… | 0.856… | $0.060… | 47.94s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 指示に従っていない: 3 タイムアウト: 1 応答時間(平均)47.94s 応答時間(最大)204.02s 応答時間(合計)431.47s … |
|
合計テスト数: 16
誤答テスト数: 9
試行ごとの合格率: 60.4%
不安定なテスト: 6…
出力トークン: 4,386
推論トークン: 142,080
応答時間: 平均 47.94s · 合計 431.47s · 最大 204.02s
不正解: 5 指示に従っていない: 3 タイムアウト: 1
|
|||||||
| #32 | Qwen3.5-Flashmedium | Qwen | 6.9… | 0.720… | $0.072… | 70.81s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 3 API エラー: 1 指示に従っていない: 1 不正解: 1 応答時間(平均)70.81s 応答時間(最大)234.29s 応答時間(合計)1132.90s … |
|
合計テスト数: 16
誤答テスト数: 6
試行ごとの合格率: 81.3%
不安定なテスト: 5…
出力トークン: 1,807
推論トークン: 169,952
応答時間: 平均 70.81s · 合計 1132.90s · 最大 234.29s
タイムアウト: 3 API エラー: 1 指示に従っていない: 1 不正解: 1
|
|||||||
| #33 | Gemini 3 Flash Previewlow | 8.2… | 0.607… | $0.079… | 6.11s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 応答時間(平均)6.11s 応答時間(最大)14.72s 応答時間(合計)97.74s … | |
|
合計テスト数: 16
誤答テスト数: 3
試行ごとの合格率: 83.3%
不安定なテスト: 1…
出力トークン: 1,586
推論トークン: 19,950
応答時間: 平均 6.11s · 合計 97.74s · 最大 14.72s
不正解: 3
|
|||||||
| #34 | GPT-5.4none | OpenAI | 4.5… | 1.562… | $0.094… | 1.48s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 1 応答時間(平均)1.48s 応答時間(最大)2.89s 応答時間(合計)23.64s … |
|
合計テスト数: 16
誤答テスト数: 10
試行ごとの合格率: 41.7%
不安定なテスト: 2…
出力トークン: 1,819
推論トークン: 0
応答時間: 平均 1.48s · 合計 23.64s · 最大 2.89s
不正解: 9 指示に従っていない: 1
|
|||||||
| #35 | GLM 5medium | Z.ai | 7.4… | 0.933… | $0.103… | 16.16s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 2 指示に従っていない: 1 回答なし: 1 タイムアウト: 1 応答時間(平均)16.16s 応答時間(最大)28.96s 応答時間(合計)129.26s … |
|
合計テスト数: 16
誤答テスト数: 5
試行ごとの合格率: 83.3%
不安定なテスト: 4…
出力トークン: 19,773
推論トークン: 36,459
応答時間: 平均 16.16s · 合計 129.26s · 最大 28.96s
不正解: 2 指示に従っていない: 1 回答なし: 1 タイムアウト: 1
|
|||||||
| #36 | GPT-5 Minimedium | OpenAI | 6.0… | 1.457… | $0.117… | 25.14s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 4 不正解: 3 タイムアウト: 1 応答時間(平均)25.14s 応答時間(最大)88.15s 応答時間(合計)402.29s … |
|
合計テスト数: 16
誤答テスト数: 8
試行ごとの合格率: 58.3%
不安定なテスト: 2…
出力トークン: 5,826
推論トークン: 48,768
応答時間: 平均 25.14s · 合計 402.29s · 最大 88.15s
指示に従っていない: 4 不正解: 3 タイムアウト: 1
|
|||||||
| #37 | Gemini 3 Flash Previewmedium | 10.0… | 1.025… | $0.164… | 12.36s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 失敗した回答はありません。 応答時間(平均)12.36s 応答時間(最大)50.16s 応答時間(合計)111.21s … | |
|
合計テスト数: 16
誤答テスト数: 0
試行ごとの合格率: 100.0%
不安定なテスト: 0…
出力トークン: 1,634
推論トークン: 47,907
応答時間: 平均 12.36s · 合計 111.21s · 最大 50.16s
|
|||||||
| #38 | Qwen3.5 Plus 2026-02-15medium | Qwen | 8.3… | 1.264… | $0.165… | 34.45s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 2 不正解: 1 応答時間(平均)34.45s 応答時間(最大)79.86s 応答時間(合計)310.09s … |
|
合計テスト数: 16
誤答テスト数: 3
試行ごとの合格率: 85.4%
不安定なテスト: 1…
出力トークン: 1,735
推論トークン: 77,212
応答時間: 平均 34.45s · 合計 310.09s · 最大 79.86s
タイムアウト: 2 不正解: 1
|
|||||||
| #39 | Gemini 3 Pro Previewmedium | 8.2… | 1.477… | $0.192… | 7.15s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 応答時間(平均)7.15s 応答時間(最大)11.96s 応答時間(合計)64.34s … | |
|
合計テスト数: 16
誤答テスト数: 3
試行ごとの合格率: 81.3%
不安定なテスト: 0…
出力トークン: 1,502
推論トークン: 9,706
応答時間: 平均 7.15s · 合計 64.34s · 最大 11.96s
不正解: 3
|
|||||||
| #40 | Kimi K2.5medium | Moonshot AI | 6.4… | 2.171… | $0.196… | 69.83s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 2 回答なし: 1 タイムアウト: 1 応答時間(平均)69.83s 応答時間(最大)137.29s 応答時間(合計)628.45s … |
|
合計テスト数: 16
誤答テスト数: 7
試行ごとの合格率: 72.9%
不安定なテスト: 5…
出力トークン: 38,453
推論トークン: 72,496
応答時間: 平均 69.83s · 合計 628.45s · 最大 137.29s
不正解: 3 指示に従っていない: 2 回答なし: 1 タイムアウト: 1
|
|||||||
| #41 | MiniMax M2.5medium | Minimax | 4.7… | 4.981… | $0.250… | 43.03s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 指示に従っていない: 3 タイムアウト: 2 invalid tool call: 1 応答時間(平均)43.03s 応答時間(最大)237.27s 応答時間(合計)387.25s … |
|
合計テスト数: 16
誤答テスト数: 11
試行ごとの合格率: 60.4%
不安定なテスト: 9…
出力トークン: 107,044
推論トークン: 206,190
応答時間: 平均 43.03s · 合計 387.25s · 最大 237.27s
不正解: 5 指示に従っていない: 3 タイムアウト: 2 common.failureReasons.invalid_tool_call: 1
|
|||||||
| #42 | Claude Sonnet 4.6none | Anthropic | 6.8… | 2.504… | $0.251… | 5.57s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 余分な書式: 3 不正解: 2 指示に従っていない: 1 応答時間(平均)5.57s 応答時間(最大)23.84s 応答時間(合計)50.12s … |
|
合計テスト数: 16
誤答テスト数: 6
試行ごとの合格率: 66.7%
不安定なテスト: 1…
出力トークン: 6,895
推論トークン: 0
応答時間: 平均 5.57s · 合計 50.12s · 最大 23.84s
余分な書式: 3 不正解: 2 指示に従っていない: 1
|
|||||||
| #43 | GPT-5.2 Chatnone | OpenAI | 7.4… | 2.440… | $0.269… | 7.03s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 1 応答時間(平均)7.03s 応答時間(最大)38.52s 応答時間(合計)112.51s … |
|
合計テスト数: 16
誤答テスト数: 5
試行ごとの合格率: 75.0%
不安定なテスト: 2…
出力トークン: 15,845
推論トークン: 0
応答時間: 平均 7.03s · 合計 112.51s · 最大 38.52s
不正解: 4 指示に従っていない: 1
|
|||||||
| #44 | Gemini 2.5 Flashmedium | 7.4… | 2.619… | $0.288… | 12.35s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 1 応答時間(平均)12.35s 応答時間(最大)95.48s 応答時間(合計)197.62s … | |
|
合計テスト数: 16
誤答テスト数: 5
試行ごとの合格率: 72.9%
不安定なテスト: 1…
出力トークン: 1,370
推論トークン: 110,522
応答時間: 平均 12.35s · 合計 197.62s · 最大 95.48s
不正解: 4 指示に従っていない: 1
|
|||||||
| #45 | GPT-5.2medium | OpenAI | 6.5… | 3.125… | $0.313… | 15.33s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 3 回答なし: 1 タイムアウト: 1 不正解: 1 応答時間(平均)15.33s 応答時間(最大)77.80s 応答時間(合計)138.01s … |
|
合計テスト数: 16
誤答テスト数: 6
試行ごとの合格率: 75.0%
不安定なテスト: 4…
出力トークン: 2,220
推論トークン: 16,811
応答時間: 平均 15.33s · 合計 138.01s · 最大 77.80s
指示に従っていない: 3 回答なし: 1 タイムアウト: 1 不正解: 1
|
|||||||
| #46 | GPT-5.3 Chatnone | OpenAI | 7.3… | 3.163… | $0.317… | 5.96s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 2 応答時間(平均)5.96s 応答時間(最大)18.33s 応答時間(合計)95.30s … |
|
合計テスト数: 16
誤答テスト数: 6
試行ごとの合格率: 70.8%
不安定なテスト: 3…
出力トークン: 19,272
推論トークン: 0
応答時間: 平均 5.96s · 合計 95.30s · 最大 18.33s
不正解: 4 指示に従っていない: 2
|
|||||||
| #47 | Qwen3.5-35B-A3Bmedium | Qwen | 5.5… | 4.251… | $0.341… | 43.93s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 4 不正解: 2 API エラー: 1 回答なし: 1 応答時間(平均)43.93s 応答時間(最大)106.00s 応答時間(合計)702.85s … |
|
合計テスト数: 16
誤答テスト数: 8
試行ごとの合格率: 77.1%
不安定なテスト: 7…
出力トークン: 5,495
推論トークン: 169,266
応答時間: 平均 43.93s · 合計 702.85s · 最大 106.00s
タイムアウト: 4 不正解: 2 API エラー: 1 回答なし: 1
|
|||||||
| #48 | Qwen3.5-27Bmedium | Qwen | 8.2… | 3.585… | $0.431… | 52.13s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 2 タイムアウト: 1 不正解: 1 応答時間(平均)52.13s 応答時間(最大)163.96s 応答時間(合計)834.16s … |
|
合計テスト数: 16
誤答テスト数: 4
試行ごとの合格率: 81.3%
不安定なテスト: 2…
出力トークン: 1,658
推論トークン: 200,786
応答時間: 平均 52.13s · 合計 834.16s · 最大 163.96s
指示に従っていない: 2 タイムアウト: 1 不正解: 1
|
|||||||
| #49 | Qwen3.5-122B-A10Bmedium | Qwen | 7.7… | 4.095… | $0.492… | 29.74s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 タイムアウト: 1 応答時間(平均)29.74s 応答時間(最大)119.29s 応答時間(合計)475.83s … |
|
合計テスト数: 16
誤答テスト数: 4
試行ごとの合格率: 79.2%
不安定なテスト: 2…
出力トークン: 17,292
推論トークン: 145,625
応答時間: 平均 29.74s · 合計 475.83s · 最大 119.29s
不正解: 3 タイムアウト: 1
|
|||||||
| #50 | Gemini 3.1 Pro Previewmedium | 9.4… | 3.417… | $0.513… | 16.60s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 1 応答時間(平均)16.60s 応答時間(最大)40.61s 応答時間(合計)149.36s … | |
|
合計テスト数: 16
誤答テスト数: 1
試行ごとの合格率: 93.8%
不安定なテスト: 0…
出力トークン: 1,521
推論トークン: 35,656
応答時間: 平均 16.60s · 合計 149.36s · 最大 40.61s
不正解: 1
|
|||||||
| #51 | GPT-5.3-Codexmedium | OpenAI | 8.4… | 4.485… | $0.539… | 16.59s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 2 不正解: 2 応答時間(平均)16.59s 応答時間(最大)100.93s 応答時間(合計)265.39s … |
|
合計テスト数: 16
誤答テスト数: 4
試行ごとの合格率: 83.3%
不安定なテスト: 2…
出力トークン: 1,764
推論トークン: 33,348
応答時間: 平均 16.59s · 合計 265.39s · 最大 100.93s
指示に従っていない: 2 不正解: 2
|
|||||||
| #52 | GPT-5.4medium | OpenAI | 8.0… | 6.601… | $0.793… | 20.05s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 2 不正解: 2 応答時間(平均)20.05s 応答時間(最大)100.41s 応答時間(合計)320.87s … |
|
合計テスト数: 16
誤答テスト数: 4
試行ごとの合格率: 83.3%
不安定なテスト: 3…
出力トークン: 1,756
推論トークン: 46,642
応答時間: 平均 20.05s · 合計 320.87s · 最大 100.41s
指示に従っていない: 2 不正解: 2
|
|||||||
| #53 | Claude Sonnet 4.6medium | Anthropic | 7.7… | 8.525… | $1.023… | 11.23s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 余分な書式: 2 タイムアウト: 1 不正解: 1 応答時間(平均)11.23s 応答時間(最大)46.35s 応答時間(合計)89.84s … |
|
合計テスト数: 16
誤答テスト数: 4
試行ごとの合格率: 77.1%
不安定なテスト: 1…
出力トークン: 35,159
推論トークン: 24,687
応答時間: 平均 11.23s · 合計 89.84s · 最大 46.35s
余分な書式: 2 タイムアウト: 1 不正解: 1
|
|||||||
| #54 | Claude Opus 4.6medium | Anthropic | 6.6… | 13.118… | $1.312… | 22.86s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 余分な書式: 4 不正解: 2 応答時間(平均)22.86s 応答時間(最大)83.40s 応答時間(合計)205.71s … |
|
合計テスト数: 16
誤答テスト数: 6
試行ごとの合格率: 66.7%
不安定なテスト: 2…
出力トークン: 26,254
推論トークン: 17,363
応答時間: 平均 22.86s · 合計 205.71s · 最大 83.40s
余分な書式: 4 不正解: 2
|
|||||||
| #55 | Gemini 3.1 Flash Lite Previewhigh | 8.2… | 19.243… | $2.310… | 68.83s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 1 応答時間(平均)68.83s 応答時間(最大)280.52s 応答時間(合計)1101.32s … | |
|
合計テスト数: 16
誤答テスト数: 4
試行ごとの合格率: 77.1%
不安定なテスト: 1…
出力トークン: 1,283
推論トークン: 1,533,310
応答時間: 平均 68.83s · 合計 1101.32s · 最大 280.52s
不正解: 3 指示に従っていない: 1
|
|||||||
クイック比較
Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro PreviewmediumGemini 3 Flash PreviewmediumvsGPT-5.3-CodexmediumGemini 3 Flash PreviewmediumvsQwen3.5 Plus 2026-02-15mediumGemini 3 Flash PreviewmediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewmediumvsGemini 3 Pro PreviewmediumGemini 3 Flash PreviewmediumvsQwen3.5-27BmediumGemini 3 Flash PreviewmediumvsStep 3.5 Flashmedium無料で利用可能Gemini 3.1 Pro PreviewmediumvsGPT-5.3-CodexmediumGPT-5.3-CodexmediumvsQwen3.5 Plus 2026-02-15mediumQwen3.5 Plus 2026-02-15mediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewlowvsGemini 3 Pro PreviewmediumGemini 3 Pro PreviewmediumvsQwen3.5-27Bmedium