AI BENCHY
AIベンチマーク リーダーボード
ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-03-30
評価済みモデル数: 78
78/80
モデルを絞り込む
現在の検索条件とフィルターに一致するモデルはありません。
| 順位 | モデル | スコア 全ベンチマークテストの平均スコア。 | 企業 | 合計コスト | 応答時間(平均) 応答時間(平均) | 正解テスト 完全合格したテスト数(全実行で合格)を示します。 |
|---|---|---|---|---|---|---|
| #1🥇 #1 | Gemini 3 Flash Previewmedium | 10.0… | $0.166… | 11.39s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 失敗した回答はありません。 応答時間(平均)11.39s 応答時間(最大)50.16s 応答時間(合計)113.86s … | |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 0
試行ごとの合格率: 100.0%
不安定なテスト: 0…
出力トークン: 1,640
推論トークン: 48,270
応答時間: 平均 11.39s · 合計 113.86s · 最大 50.16s
|
||||||
| #2🥈 #2 | Gemini 3.1 Pro Previewmedium | 9.6… | $0.522… | 15.56s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 1 応答時間(平均)15.56s 応答時間(最大)40.61s 応答時間(合計)155.64s … | |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 1
試行ごとの合格率: 94.1%
不安定なテスト: 0…
出力トークン: 1,527
推論トークン: 36,341
応答時間: 平均 15.56s · 合計 155.64s · 最大 40.61s
|
||||||
| #3🥉 #3 | Gemini 3 Flash Previewlow | 8.7… | $0.081… | 5.95s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 応答時間(平均)5.95s 応答時間(最大)14.72s 応答時間(合計)101.19s … | |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 3
試行ごとの合格率: 84.3%
不安定なテスト: 1…
出力トークン: 1,592
推論トークン: 20,556
応答時間: 平均 5.95s · 合計 101.19s · 最大 14.72s
|
||||||
| #4#4 | Gemini 3 PRO Previewmedium | 8.7… | $0.197… | 9.06s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 応答時間(平均)9.06s 応答時間(最大)26.24s 応答時間(合計)90.58s … | |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 3
試行ごとの合格率: 82.4%
不安定なテスト: 0…
出力トークン: 1,508
推論トークン: 10,084
応答時間: 平均 9.06s · 合計 90.58s · 最大 26.24s
|
||||||
| #5#5 | Seed-2.0-Litemedium | 8.5… | Bytedance Seed | $0.105… | 27.78s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 2 応答時間(平均)27.78s 応答時間(最大)168.71s 応答時間(合計)472.24s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 5
試行ごとの合格率: 82.4%
不安定なテスト: 3…
出力トークン: 2,821
推論トークン: 44,723
応答時間: 平均 27.78s · 合計 472.24s · 最大 168.71s
|
||||||
| #6#6 | Qwen3.6 Plus Previewmedium | 8.5… | Qwen | $0.000… | 13.94s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 1 応答時間(平均)13.94s 応答時間(最大)43.55s 応答時間(合計)237.01s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 4
試行ごとの合格率: 76.5%
不安定なテスト: 0…
出力トークン: 1,756
推論トークン: 77,213
応答時間: 平均 13.94s · 合計 237.01s · 最大 43.55s
|
||||||
| #7#7 | GPT-5.3-Codexmedium | 8.5… | OpenAI | $0.544… | 15.76s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 2 応答時間(平均)15.76s 応答時間(最大)100.93s 応答時間(合計)267.97s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 5
試行ごとの合格率: 82.4%
不安定なテスト: 3…
出力トークン: 1,788
推論トークン: 33,649
応答時間: 平均 15.76s · 合計 267.97s · 最大 100.93s
|
||||||
| #8#8 | Gemini 3.1 Flash Lite Previewhighアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。 | 8.4… | $2.310… | 68.83s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 1 応答時間(平均)68.83s 応答時間(最大)280.52s 応答時間(合計)1101.32s … | |
|
モデルカードを見る
合計テスト数: 16
誤答テスト数: 4
試行ごとの合格率: 77.1%
不安定なテスト: 1…
出力トークン: 1,283
推論トークン: 1,533,310
応答時間: 平均 68.83s · 合計 1101.32s · 最大 280.52s
|
||||||
| #9#9 | Qwen3.5 Plus 2026-02-15medium | 8.4… | Qwen | $0.189… | 39.13s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 2 不正解: 2 応答時間(平均)39.13s 応答時間(最大)81.20s 応答時間(合計)391.29s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 4
試行ごとの合格率: 82.4%
不安定なテスト: 2…
出力トークン: 1,754
推論トークン: 92,522
応答時間: 平均 39.13s · 合計 391.29s · 最大 81.20s
|
||||||
| #10#10 | Qwen3.5-122B-A10Bmedium | 8.4… | Qwen | $0.505… | 29.05s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 タイムアウト: 1 応答時間(平均)29.05s 応答時間(最大)119.29s 応答時間(合計)493.86s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 4
試行ごとの合格率: 80.4%
不安定なテスト: 2…
出力トークン: 17,313
推論トークン: 151,974
応答時間: 平均 29.05s · 合計 493.86s · 最大 119.29s
|
||||||
| #11#11 | Qwen3.5-27Bmedium | 8.3… | Qwen | $0.467… | 52.01s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 2 余分な書式: 1 タイムアウト: 1 不正解: 1 応答時間(平均)52.01s 応答時間(最大)163.96s 応答時間(合計)884.10s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 5
試行ごとの合格率: 80.4%
不安定なテスト: 3…
出力トークン: 2,125
推論トークン: 223,335
応答時間: 平均 52.01s · 合計 884.10s · 最大 163.96s
|
||||||
| #12#12 | GLM 5medium | 8.3… | Z.ai | $0.108… | 17.15s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 2 指示に従っていない: 1 回答なし: 1 タイムアウト: 1 応答時間(平均)17.15s 応答時間(最大)28.96s 応答時間(合計)154.32s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 5
試行ごとの合格率: 84.3%
不安定なテスト: 4…
出力トークン: 19,833
推論トークン: 38,523
応答時間: 平均 17.15s · 合計 154.32s · 最大 28.96s
|
||||||
| #13#13 | DeepSeek V3.2medium | 8.2… | DeepSeek | $0.026… | 38.49s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 1 タイムアウト: 1 応答時間(平均)38.49s 応答時間(最大)93.11s 応答時間(合計)654.41s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 5
試行ごとの合格率: 80.4%
不安定なテスト: 3…
出力トークン: 9,994
推論トークン: 41,719
応答時間: 平均 38.49s · 合計 654.41s · 最大 93.11s
|
||||||
| #14#14 | Gemini 2.5 Flashmedium | 8.1… | $0.292… | 11.88s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 1 応答時間(平均)11.88s 応答時間(最大)95.48s 応答時間(合計)201.89s … | |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 5
試行ごとの合格率: 74.5%
不安定なテスト: 1…
出力トークン: 1,376
推論トークン: 111,923
応答時間: 平均 11.88s · 合計 201.89s · 最大 95.48s
|
||||||
| #15#15 | Gemini 3.1 Flash Lite Previewmedium | 8.1… | $0.050… | 3.70s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 1 応答時間(平均)3.70s 応答時間(最大)14.93s 応答時間(合計)62.97s … | |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 5
試行ごとの合格率: 70.6%
不安定なテスト: 0…
出力トークン: 1,737
推論トークン: 26,346
応答時間: 平均 3.70s · 合計 62.97s · 最大 14.93s
|
||||||
| #16#16 | GPT-5.4medium | 8.1… | OpenAI | $0.794… | 18.95s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 2 応答時間(平均)18.95s 応答時間(最大)100.41s 応答時間(合計)322.23s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 5
試行ごとの合格率: 78.4%
不安定なテスト: 3…
出力トークン: 1,780
推論トークン: 46,687
応答時間: 平均 18.95s · 合計 322.23s · 最大 100.41s
|
||||||
| #17#17 | GLM 5 Turbomedium | 8.0… | Z.ai | $0.166… | 17.98s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 指示に従っていない: 2 タイムアウト: 1 応答時間(平均)17.98s 応答時間(最大)194.23s 応答時間(合計)305.72s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 6
試行ごとの合格率: 76.5%
不安定なテスト: 5…
出力トークン: 11,865
推論トークン: 35,632
応答時間: 平均 17.98s · 合計 305.72s · 最大 194.23s
|
||||||
| #18#18 | Gemini 3.1 Flash Lite Previewlow | 8.0… | $0.021… | 3.28s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 1 応答時間(平均)3.28s 応答時間(最大)11.91s 応答時間(合計)55.80s … | |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 5
試行ごとの合格率: 70.6%
不安定なテスト: 0…
出力トークン: 1,617
推論トークン: 7,686
応答時間: 平均 3.28s · 合計 55.80s · 最大 11.91s
|
||||||
| #19#19 | Gemini 3 Flash Previewnone | 8.0… | $0.019… | 1.66s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 応答時間(平均)1.66s 応答時間(最大)3.56s 応答時間(合計)16.61s … | |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 5
試行ごとの合格率: 76.5%
不安定なテスト: 2…
出力トークン: 1,417
推論トークン: 0
応答時間: 平均 1.66s · 合計 16.61s · 最大 3.56s
|
||||||
| #20#20 | Qwen3.5-Flashmedium | 8.0… | Qwen | $0.076… | 67.96s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 3 API エラー: 1 指示に従っていない: 1 不正解: 1 応答時間(平均)67.96s 応答時間(最大)234.29s 応答時間(合計)1155.28s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 6
試行ごとの合格率: 82.4%
不安定なテスト: 5…
出力トークン: 1,827
推論トークン: 179,299
応答時間: 平均 67.96s · 合計 1155.28s · 最大 234.29s
|
||||||
| #21#21 | MiMo-V2-Promedium | 8.0… | Xiaomi | $0.123… | 9.78s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 余分な書式: 1 指示に従っていない: 1 タイムアウト: 1 応答時間(平均)9.78s 応答時間(最大)64.71s 応答時間(合計)156.45s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 6
試行ごとの合格率: 76.5%
不安定なテスト: 3…
出力トークン: 1,875
推論トークン: 26,959
応答時間: 平均 9.78s · 合計 156.45s · 最大 64.71s
|
||||||
| #22#22 | Claude Sonnet 4.6medium | 7.9… | Anthropic | $1.024… | 10.09s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 余分な書式: 2 不正解: 2 タイムアウト: 1 応答時間(平均)10.09s 応答時間(最大)46.35s 応答時間(合計)90.85s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 5
試行ごとの合格率: 72.6%
不安定なテスト: 1…
出力トークン: 35,174
推論トークン: 24,687
応答時間: 平均 10.09s · 合計 90.85s · 最大 46.35s
|
||||||
| #23#23 | MiMo-V2-Omnimedium | 7.9… | Xiaomi | $0.084… | 13.71s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 2 不正解: 2 余分な書式: 1 回答なし: 1 応答時間(平均)13.71s 応答時間(最大)158.78s 応答時間(合計)233.06s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 6
試行ごとの合格率: 64.7%
不安定なテスト: 0…
出力トークン: 663
推論トークン: 39,001
応答時間: 平均 13.71s · 合計 233.06s · 最大 158.78s
|
||||||
| #24#24 | Grok 4.20 Betamedium | 7.9… | X AI | $0.608… | 8.54s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 3 不正解: 3 応答時間(平均)8.54s 応答時間(最大)24.21s 応答時間(合計)145.26s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 6
試行ごとの合格率: 72.6%
不安定なテスト: 2…
出力トークン: 1,487
推論トークン: 87,922
応答時間: 平均 8.54s · 合計 145.26s · 最大 24.21s
|
||||||
| #25#25 | Step 3.5 Flashmedium | 7.9… | Stepfun | $0.000… | 26.78s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 3 不正解: 3 応答時間(平均)26.78s 応答時間(最大)170.45s 応答時間(合計)294.58s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 6
試行ごとの合格率: 70.6%
不安定なテスト: 2…
出力トークン: 71,904
推論トークン: 155,607
応答時間: 平均 26.78s · 合計 294.58s · 最大 170.45s
|
||||||
| #26#26 | Gemini 3.1 Flash Lite Previewnone | 7.8… | $0.015… | 1.29s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 2 応答時間(平均)1.29s 応答時間(最大)3.39s 応答時間(合計)21.95s … | |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 6
試行ごとの合格率: 68.6%
不安定なテスト: 1…
出力トークン: 4,721
推論トークン: 0
応答時間: 平均 1.29s · 合計 21.95s · 最大 3.39s
|
||||||
| #27#27 | GPT-5.2 Chatnone | 7.8… | OpenAI | $0.271… | 6.72s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 指示に従っていない: 1 応答時間(平均)6.72s 応答時間(最大)38.52s 応答時間(合計)114.20s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 6
試行ごとの合格率: 74.5%
不安定なテスト: 3…
出力トークン: 16,001
推論トークン: 0
応答時間: 平均 6.72s · 合計 114.20s · 最大 38.52s
|
||||||
| #28#28 | MiMo-V2-Flashmedium | 7.6… | Xiaomi | $0.037… | 24.30s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 3 API エラー: 1 余分な書式: 1 指示に従っていない: 1 応答時間(平均)24.30s 応答時間(最大)96.01s 応答時間(合計)267.31s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 6
試行ごとの合格率: 70.6%
不安定なテスト: 2…
出力トークン: 11,959
推論トークン: 111,534
応答時間: 平均 24.30s · 合計 267.31s · 最大 96.01s
|
||||||
| #29#29 | GPT-5.3 Chatnone | 7.6… | OpenAI | $0.318… | 5.68s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 指示に従っていない: 2 応答時間(平均)5.68s 応答時間(最大)18.33s 応答時間(合計)96.58s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 7
試行ごとの合格率: 66.7%
不安定なテスト: 3…
出力トークン: 19,348
推論トークン: 0
応答時間: 平均 5.68s · 合計 96.58s · 最大 18.33s
|
||||||
| #30#30 | Claude Opus 4.6medium | 7.5… | Anthropic | $1.317… | 20.87s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 余分な書式: 4 不正解: 2 応答時間(平均)20.87s 応答時間(最大)83.40s 応答時間(合計)208.73s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 6
試行ごとの合格率: 68.6%
不安定なテスト: 2…
出力トークン: 26,343
推論トークン: 17,434
応答時間: 平均 20.87s · 合計 208.73s · 最大 83.40s
|
||||||
| #31#31 | GPT-5.4 Nanomedium | 7.4… | OpenAI | $0.077… | 11.08s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 3 応答時間(平均)11.08s 応答時間(最大)94.06s 応答時間(合計)188.39s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 7
試行ごとの合格率: 66.7%
不安定なテスト: 2…
出力トークン: 2,474
推論トークン: 54,516
応答時間: 平均 11.08s · 合計 188.39s · 最大 94.06s
|
||||||
| #32#32 | Seed-2.0-Minimedium | 7.3… | Bytedance Seed | $0.029… | 60.58s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 4 不正解: 2 指示に従っていない: 1 応答時間(平均)60.58s 応答時間(最大)262.83s 応答時間(合計)848.16s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 7
試行ごとの合格率: 64.7%
不安定なテスト: 2…
出力トークン: 1,971
推論トークン: 58,624
応答時間: 平均 60.58s · 合計 848.16s · 最大 262.83s
|
||||||
| #33#33 | GPT-5.2medium | 7.3… | OpenAI | $0.314… | 13.93s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 3 不正解: 2 回答なし: 1 タイムアウト: 1 応答時間(平均)13.93s 応答時間(最大)77.80s 応答時間(合計)139.29s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 7
試行ごとの合格率: 70.6%
不安定なテスト: 4…
出力トークン: 2,238
推論トークン: 16,811
応答時間: 平均 13.93s · 合計 139.29s · 最大 77.80s
|
||||||
| #34#34 | Qwen3.5-35B-A3Bmedium | 7.3… | Qwen | $0.349… | 42.48s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 4 不正解: 2 API エラー: 1 回答なし: 1 応答時間(平均)42.48s 応答時間(最大)106.00s 応答時間(合計)722.12s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 8
試行ごとの合格率: 78.4%
不安定なテスト: 7…
出力トークン: 5,864
推論トークン: 175,683
応答時間: 平均 42.48s · 合計 722.12s · 最大 106.00s
|
||||||
| #35#35 | Claude Sonnet 4.6none | 7.3… | Anthropic | $0.252… | 5.12s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 余分な書式: 3 不正解: 3 指示に従っていない: 1 応答時間(平均)5.12s 応答時間(最大)23.84s 応答時間(合計)51.16s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 7
試行ごとの合格率: 62.8%
不安定なテスト: 1…
出力トークン: 6,910
推論トークン: 0
応答時間: 平均 5.12s · 合計 51.16s · 最大 23.84s
|
||||||
| #36#36 | Kimi K2.5medium | 7.2… | Moonshot AI | $0.201… | 64.59s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 2 回答なし: 1 タイムアウト: 1 応答時間(平均)64.59s 応答時間(最大)137.29s 応答時間(合計)645.93s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 8
試行ごとの合格率: 72.6%
不安定なテスト: 6…
出力トークン: 40,907
推論トークン: 75,121
応答時間: 平均 64.59s · 合計 645.93s · 最大 137.29s
|
||||||
| #37#37 | GPT-5.4 Minimedium | 7.1… | OpenAI | $0.289… | 15.66s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 5 不正解: 4 応答時間(平均)15.66s 応答時間(最大)102.91s 応答時間(合計)266.14s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 9
試行ごとの合格率: 68.6%
不安定なテスト: 6…
出力トークン: 1,708
推論トークン: 58,019
応答時間: 平均 15.66s · 合計 266.14s · 最大 102.91s
|
||||||
| #38#38 | Hunter Alphamedium | 7.0… | Openrouter | $0.000… | 10.33s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 4 指示に従っていない: 2 タイムアウト: 2 余分な書式: 1 応答時間(平均)10.33s 応答時間(最大)30.53s 応答時間(合計)175.60s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 9
試行ごとの合格率: 68.6%
不安定なテスト: 6…
出力トークン: 4,724
推論トークン: 17,921
応答時間: 平均 10.33s · 合計 175.60s · 最大 30.53s
|
||||||
| #39#39 | Grok 4.1 Fastmedium | 6.9… | X AI | $0.052… | 23.91s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 3 不正解: 3 回答なし: 1 タイムアウト: 1 応答時間(平均)23.91s 応答時間(最大)121.79s 応答時間(合計)239.09s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 8
試行ごとの合格率: 66.7%
不安定なテスト: 5…
出力トークン: 1,189
推論トークン: 84,595
応答時間: 平均 23.91s · 合計 239.09s · 最大 121.79s
|
||||||
| #40#40 | Nemotron 3 Supermedium | 6.9… | NVIDIA | $0.000… | 19.06s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 4 不正解: 3 タイムアウト: 1 応答時間(平均)19.06s 応答時間(最大)87.80s 応答時間(合計)305.04s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 8
試行ごとの合格率: 58.8%
不安定なテスト: 3…
出力トークン: 11,947
推論トークン: 29,768
応答時間: 平均 19.06s · 合計 305.04s · 最大 87.80s
|
||||||
| #41#41 | GPT-5 Minimedium | 6.8… | OpenAI | $0.118… | 24.02s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 4 不正解: 4 タイムアウト: 1 応答時間(平均)24.02s 応答時間(最大)88.15s 応答時間(合計)408.39s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 9
試行ごとの合格率: 58.8%
不安定なテスト: 3…
出力トークン: 5,896
推論トークン: 49,322
応答時間: 平均 24.02s · 合計 408.39s · 最大 88.15s
|
||||||
| #42#42 | Qwen3.5 Plus 2026-02-15none | 6.8… | Qwen | $0.016… | 2.51s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 応答時間(平均)2.51s 応答時間(最大)6.65s 応答時間(合計)27.60s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 8
試行ごとの合格率: 54.9%
不安定なテスト: 1…
出力トークン: 2,018
推論トークン: 0
応答時間: 平均 2.51s · 合計 27.60s · 最大 6.65s
|
||||||
| #43#43 | GLM 5none | 6.7… | Z.ai | $0.019… | 3.77s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 応答時間(平均)3.77s 応答時間(最大)11.07s 応答時間(合計)37.66s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 8
試行ごとの合格率: 52.9%
不安定なテスト: 0…
出力トークン: 1,551
推論トークン: 0
応答時間: 平均 3.77s · 合計 37.66s · 最大 11.07s
|
||||||
| #44#44 | MiMo-V2-Omninone | 6.4… | Xiaomi | $0.006… | 2.01s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 7 指示に従っていない: 2 応答時間(平均)2.01s 応答時間(最大)6.81s 応答時間(合計)34.09s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 9
試行ごとの合格率: 47.1%
不安定なテスト: 0…
出力トークン: 469
推論トークン: 0
応答時間: 平均 2.01s · 合計 34.09s · 最大 6.81s
|
||||||
| #45#45 | DeepSeek V3.2none | 6.4… | DeepSeek | $0.016… | 12.35s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 7 余分な書式: 2 無効なツール呼び出し: 1 応答時間(平均)12.35s 応答時間(最大)115.89s 応答時間(合計)209.94s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 10
試行ごとの合格率: 51.0%
不安定なテスト: 3…
出力トークン: 7,831
推論トークン: 0
応答時間: 平均 12.35s · 合計 209.94s · 最大 115.89s
|
||||||
| #46#46 | Mercury 2medium | 6.3… | Inception | $0.045… | 2.25s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 6 指示に従っていない: 4 応答時間(平均)2.25s 応答時間(最大)14.63s 応答時間(合計)35.99s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 10
試行ごとの合格率: 51.0%
不安定なテスト: 3…
出力トークン: 3,723
推論トークン: 46,120
応答時間: 平均 2.25s · 合計 35.99s · 最大 14.63s
|
||||||
| #47#47 | GPT-5 Nanomedium | 6.2… | OpenAI | $0.061… | 44.47s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 6 指示に従っていない: 3 タイムアウト: 1 応答時間(平均)44.47s 応答時間(最大)204.02s 応答時間(合計)444.74s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 10
試行ごとの合格率: 58.8%
不安定なテスト: 7…
出力トークン: 4,500
推論トークン: 143,296
応答時間: 平均 44.47s · 合計 444.74s · 最大 204.02s
|
||||||
| #48#48 | Grok 4.20 Multi-Agent Betamedium | 6.2… | X AI | $4.978… | 8.64s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 4 不正解: 3 API エラー: 2 余分な書式: 2 応答時間(平均)8.64s 応答時間(最大)35.28s 応答時間(合計)129.64s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 11
試行ごとの合格率: 54.9%
不安定なテスト: 6…
出力トークン: 298,948
推論トークン: 296,529
応答時間: 平均 8.64s · 合計 129.64s · 最大 35.28s
|
||||||
| #49#49 | Qwen3.5-Flashnone | 6.0… | Qwen | $0.006… | 3.36s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 1 応答時間(平均)3.36s 応答時間(最大)13.73s 応答時間(合計)57.15s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 10
試行ごとの合格率: 43.1%
不安定なテスト: 1…
出力トークン: 3,777
推論トークン: 0
応答時間: 平均 3.36s · 合計 57.15s · 最大 13.73s
|
||||||
| #50#50 | gpt-oss-120bmedium | 6.0… | OpenAI | $0.010… | 15.05s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 6 指示に従っていない: 4 応答時間(平均)15.05s 応答時間(最大)50.92s 応答時間(合計)150.55s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 10
試行ごとの合格率: 51.0%
不安定なテスト: 5…
出力トークン: 13,265
推論トークン: 34,330
応答時間: 平均 15.05s · 合計 150.55s · 最大 50.92s
|
||||||
| #51#51 | Seed-2.0-Litenone | 6.0… | Bytedance Seed | $0.016… | 2.40s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 応答時間(平均)2.40s 応答時間(最大)6.70s 応答時間(合計)40.85s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 10
試行ごとの合格率: 52.9%
不安定なテスト: 5…
出力トークン: 2,749
推論トークン: 0
応答時間: 平均 2.40s · 合計 40.85s · 最大 6.70s
|
||||||
| #52#52 | Gemini 2.5 Flashnone | 5.9… | $0.012… | 888ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 1 応答時間(平均)888ms 応答時間(最大)4.39s 応答時間(合計)15.10s … | |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 11
試行ごとの合格率: 41.2%
不安定なテスト: 2…
出力トークン: 1,273
推論トークン: 0
応答時間: 平均 888ms · 合計 15.10s · 最大 4.39s
|
||||||
| #53#53 | Qwen3.5-35B-A3Bnone | 5.9… | Qwen | $0.015… | 3.89s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 応答時間(平均)3.89s 応答時間(最大)47.43s 応答時間(合計)66.07s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 11
試行ごとの合格率: 47.1%
不安定なテスト: 3…
出力トークン: 3,761
推論トークン: 0
応答時間: 平均 3.89s · 合計 66.07s · 最大 47.43s
|
||||||
| #54#54 | MiniMax M2.5medium | 5.9… | Minimax | $0.250… | 39.65s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 5 指示に従っていない: 3 タイムアウト: 3 無効なツール呼び出し: 1 応答時間(平均)39.65s 応答時間(最大)237.27s 応答時間(合計)396.47s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 12
試行ごとの合格率: 60.8%
不安定なテスト: 10…
出力トークン: 107,044
推論トークン: 206,422
応答時間: 平均 39.65s · 合計 396.47s · 最大 237.27s
|
||||||
| #55#55 | Hunter Alphanone | 5.9… | Openrouter | $0.000… | 4.58s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 応答時間(平均)4.58s 応答時間(最大)15.17s 応答時間(合計)77.92s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 11
試行ごとの合格率: 49.0%
不安定なテスト: 4…
出力トークン: 2,278
推論トークン: 0
応答時間: 平均 4.58s · 合計 77.92s · 最大 15.17s
|
||||||
| #56#56 | Qwen3.5-122B-A10Bnone | 5.8… | Qwen | $0.020… | 3.71s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 1 応答時間(平均)3.71s 応答時間(最大)46.00s 応答時間(合計)63.06s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 11
試行ごとの合格率: 37.3%
不安定なテスト: 1…
出力トークン: 2,682
推論トークン: 0
応答時間: 平均 3.71s · 合計 63.06s · 最大 46.00s
|
||||||
| #57#57 | MiMo-V2-Pronone | 5.8… | Xiaomi | $0.040… | 2.31s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 応答時間(平均)2.31s 応答時間(最大)6.58s 応答時間(合計)39.25s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 11
試行ごとの合格率: 45.1%
不安定なテスト: 3…
出力トークン: 1,721
推論トークン: 0
応答時間: 平均 2.31s · 合計 39.25s · 最大 6.58s
|
||||||
| #58#58 | GPT-5.4none | 5.6… | OpenAI | $0.095… | 1.43s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 1 応答時間(平均)1.43s 応答時間(最大)2.89s 応答時間(合計)24.27s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 11
試行ごとの合格率: 39.2%
不安定なテスト: 2…
出力トークン: 1,837
推論トークン: 0
応答時間: 平均 1.43s · 合計 24.27s · 最大 2.89s
|
||||||
| #59#59 | Qwen3.5-27Bnone | 5.6… | Qwen | $0.016… | 1.70s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 2 応答時間(平均)1.70s 応答時間(最大)9.39s 応答時間(合計)28.82s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 12
試行ごとの合格率: 35.3%
不安定なテスト: 2…
出力トークン: 3,164
推論トークン: 0
応答時間: 平均 1.70s · 合計 28.82s · 最大 9.39s
|
||||||
| #60#60 | Mistral Small 4medium | 5.6… | Mistral | $0.026… | 4.18s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 7 指示に従っていない: 3 API エラー: 2 応答時間(平均)4.18s 応答時間(最大)25.25s 応答時間(合計)71.03s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 12
試行ごとの合格率: 49.0%
不安定なテスト: 6…
出力トークン: 12,288
推論トークン: 28,112
応答時間: 平均 4.18s · 合計 71.03s · 最大 25.25s
|
||||||
| #61#61 | GLM 5 Turbonone | 5.6… | Z.ai | $0.029… | 2.89s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 応答時間(平均)2.89s 応答時間(最大)8.21s 応答時間(合計)49.05s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 11
試行ごとの合格率: 37.3%
不安定なテスト: 1…
出力トークン: 1,270
推論トークン: 0
応答時間: 平均 2.89s · 合計 49.05s · 最大 8.21s
|
||||||
| #62#62 | GLM 4.7 Flashnone | 5.6… | Z.ai | $0.003… | 3.13s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 2 無効なツール呼び出し: 1 応答時間(平均)3.13s 応答時間(最大)7.05s 応答時間(合計)31.33s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 12
試行ごとの合格率: 39.2%
不安定なテスト: 3…
出力トークン: 1,863
推論トークン: 0
応答時間: 平均 3.13s · 合計 31.33s · 最大 7.05s
|
||||||
| #63#63 | Grok 4.20 Betanone | 5.3… | X AI | $0.090… | 1.19s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 3 無効なツール呼び出し: 1 応答時間(平均)1.19s 応答時間(最大)6.48s 応答時間(合計)20.22s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 13
試行ごとの合格率: 31.4%
不安定なテスト: 2…
出力トークン: 1,517
推論トークン: 0
応答時間: 平均 1.19s · 合計 20.22s · 最大 6.48s
|
||||||
| #64#64 | Kimi K2.5none | 5.3… | Moonshot AI | $0.015… | 10.83s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 12 応答時間(平均)10.83s 応答時間(最大)42.13s 応答時間(合計)108.27s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 12
試行ごとの合格率: 37.3%
不安定なテスト: 3…
出力トークン: 2,010
推論トークン: 0
応答時間: 平均 10.83s · 合計 108.27s · 最大 42.13s
|
||||||
| #65#65 | Trinity Large Previewnone | 5.3… | Arcee AI | $0.000… | 3.04s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 2 応答時間(平均)3.04s 応答時間(最大)8.91s 応答時間(合計)51.75s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 12
試行ごとの合格率: 31.4%
不安定なテスト: 1…
出力トークン: 1,843
推論トークン: 0
応答時間: 平均 3.04s · 合計 51.75s · 最大 8.91s
|
||||||
| #66#66 | Mistral Small 4none | 5.3… | Mistral | $0.006… | 629ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 2 応答時間(平均)629ms 応答時間(最大)1.72s 応答時間(合計)10.70s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 12
試行ごとの合格率: 33.3%
不安定なテスト: 1…
出力トークン: 1,624
推論トークン: 0
応答時間: 平均 629ms · 合計 10.70s · 最大 1.72s
|
||||||
| #67#67 | Nemotron 3 Supernone | 5.2… | NVIDIA | $0.000… | 8.86s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 4 応答時間(平均)8.86s 応答時間(最大)24.97s 応答時間(合計)150.70s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 13
試行ごとの合格率: 35.3%
不安定なテスト: 3…
出力トークン: 4,225
推論トークン: 0
応答時間: 平均 8.86s · 合計 150.70s · 最大 24.97s
|
||||||
| #68#68 | GPT-4o-mininone | 5.0… | OpenAI | $0.005… | 1.94s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 12 指示に従っていない: 1 応答時間(平均)1.94s 応答時間(最大)7.58s 応答時間(合計)19.44s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 13
試行ごとの合格率: 23.5%
不安定なテスト: 0…
出力トークン: 1,600
推論トークン: 0
応答時間: 平均 1.94s · 合計 19.44s · 最大 7.58s
|
||||||
| #69#69 | MiniMax M2.7medium | 5.0… | Minimax | $0.072… | 27.32s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 指示に従っていない: 6 不正解: 5 タイムアウト: 2 無効なツール呼び出し: 1 応答時間(平均)27.32s 応答時間(最大)117.04s 応答時間(合計)437.10s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 14
試行ごとの合格率: 49.0%
不安定なテスト: 10…
出力トークン: 4,517
推論トークン: 47,612
応答時間: 平均 27.32s · 合計 437.10s · 最大 117.04s
|
||||||
| #70#70 | Qwen3 Coder Nextnone | 5.0… | Qwen | $0.007… | 10.82s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 11 余分な書式: 1 指示に従っていない: 1 応答時間(平均)10.82s 応答時間(最大)45.14s 応答時間(合計)118.99s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 13
試行ごとの合格率: 23.5%
不安定なテスト: 0…
出力トークン: 3,032
推論トークン: 0
応答時間: 平均 10.82s · 合計 118.99s · 最大 45.14s
|
||||||
| #71#71 | Mercury 2none | 4.8… | Inception | $0.007… | 592ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 12 指示に従っていない: 1 応答時間(平均)592ms 応答時間(最大)1.27s 応答時間(合計)10.07s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 13
試行ごとの合格率: 29.4%
不安定なテスト: 2…
出力トークン: 1,315
推論トークン: 0
応答時間: 平均 592ms · 合計 10.07s · 最大 1.27s
|
||||||
| #72#72 | GPT-5.4 Mininone | 4.8… | OpenAI | $0.030… | 1.17s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 10 指示に従っていない: 3 応答時間(平均)1.17s 応答時間(最大)2.52s 応答時間(合計)19.82s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 13
試行ごとの合格率: 31.4%
不安定なテスト: 3…
出力トークン: 2,085
推論トークン: 0
応答時間: 平均 1.17s · 合計 19.82s · 最大 2.52s
|
||||||
| #73#73 | Qwen3.5-9Bnone | 4.8… | Qwen | $0.005… | 1.22s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 3 無効なツール呼び出し: 1 応答時間(平均)1.22s 応答時間(最大)5.91s 応答時間(合計)20.74s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 13
試行ごとの合格率: 23.5%
不安定なテスト: 0…
出力トークン: 2,945
推論トークン: 0
応答時間: 平均 1.22s · 合計 20.74s · 最大 5.91s
|
||||||
| #74#74 | Qwen3 Coder Nextmedium | 4.8… | Qwen | $0.007… | 11.57s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 指示に従っていない: 5 応答時間(平均)11.57s 応答時間(最大)81.80s 応答時間(合計)127.32s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 14
試行ごとの合格率: 25.5%
不安定なテスト: 2…
出力トークン: 2,941
推論トークン: 0
応答時間: 平均 11.57s · 合計 127.32s · 最大 81.80s
|
||||||
| #75#75 | GLM 4.7 Flashmedium | 4.7… | Z.ai | $0.042… | 33.44s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 8 指示に従っていない: 2 回答なし: 2 無効なツール呼び出し: 1 応答時間(平均)33.44s 応答時間(最大)174.55s 応答時間(合計)334.39s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 13
試行ごとの合格率: 39.2%
不安定なテスト: 7…
出力トークン: 38,719
推論トークン: 65,465
応答時間: 平均 33.44s · 合計 334.39s · 最大 174.55s
|
||||||
| #76#76 | Qwen3.5-9Bmedium | 4.5… | Qwen | $0.024… | 69.21s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 タイムアウト: 11 余分な書式: 1 指示に従っていない: 1 不正解: 1 応答時間(平均)69.21s 応答時間(最大)226.38s 応答時間(合計)968.99s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 14
試行ごとの合格率: 35.3%
不安定なテスト: 6…
出力トークン: 18,141
推論トークン: 141,204
応答時間: 平均 69.21s · 合計 968.99s · 最大 226.38s
|
||||||
| #77#77 | Grok 4.1 Fastnone | 4.4… | X AI | $0.008… | 1.76s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 12 指示に従っていない: 2 応答時間(平均)1.76s 応答時間(最大)5.51s 応答時間(合計)17.56s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 14
試行ごとの合格率: 23.5%
不安定なテスト: 2…
出力トークン: 1,154
推論トークン: 0
応答時間: 平均 1.76s · 合計 17.56s · 最大 5.51s
|
||||||
| #78#78 | MiMo-V2-Flashnone | 4.4… | Xiaomi | $0.023… | 2.79s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 11 API エラー: 1 余分な書式: 1 指示に従っていない: 1 応答時間(平均)2.79s 応答時間(最大)19.68s 応答時間(合計)36.29s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 14
試行ごとの合格率: 27.5%
不安定なテスト: 4…
出力トークン: 67,796
推論トークン: 0
応答時間: 平均 2.79s · 合計 36.29s · 最大 19.68s
|
||||||
| #79#79 | GPT-5.4 Nanonone | 4.3… | OpenAI | $0.009… | 1.39s… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 12 指示に従っていない: 3 応答時間(平均)1.39s 応答時間(最大)3.84s 応答時間(合計)23.70s … |
|
モデルカードを見る
合計テスト数: 17
誤答テスト数: 15
試行ごとの合格率: 29.4%
不安定なテスト: 6…
出力トークン: 2,185
推論トークン: 0
応答時間: 平均 1.39s · 合計 23.70s · 最大 3.84s
|
||||||
| #80#80 | LFM2-24B-A2Bnoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。 | 4.1… | Liquid | $0.001… | 811ms… | テストは、その全実行が合格した場合にのみ完全合格とみなされます。 不正解: 9 API エラー: 4 指示に従っていない: 2 応答時間(平均)811ms 応答時間(最大)2.88s 応答時間(合計)11.35s … |
|
モデルカードを見る
合計テスト数: 16
誤答テスト数: 15
試行ごとの合格率: 14.6%
不安定なテスト: 2…
出力トークン: 1,185
推論トークン: 0
応答時間: 平均 811ms · 合計 11.35s · 最大 2.88s
|
||||||
クイック比較
Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro PreviewmediumGemini 3 Flash PreviewmediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewmediumvsGemini 3 PRO PreviewmediumGemini 3 Flash PreviewmediumvsSeed-2.0-LitemediumGemini 3 Flash PreviewmediumvsQwen3.6 Plus Previewmedium無料で利用可能Gemini 3 Flash PreviewmediumvsGPT-5.3-CodexmediumGemini 3.1 Pro PreviewmediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewlowvsGemini 3 PRO PreviewmediumGemini 3 PRO PreviewmediumvsSeed-2.0-LitemediumSeed-2.0-LitemediumvsQwen3.6 Plus Previewmedium無料で利用可能Qwen3.6 Plus Previewmedium無料で利用可能vsGPT-5.3-Codexmedium