AI BENCHY

AIベンチマークリーダーボード

Name: AI BENCHY モデルベンチマーク結果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-03-30 評価済みモデル数: 78

検索

78/80

順位	モデル	スコア	企業	合計コスト	応答時間（平均）
#1🥇 #1	Gemini 3 Flash Previewmedium	10.0	Google	$0.166	11.39s
モデルカードを見る合計テスト数: 17 誤答テスト数: 0 試行ごとの合格率: 100.0% 不安定なテスト: 0 出力トークン: 1,640 推論トークン: 48,270 応答時間: 平均 11.39s · 合計 113.86s · 最大 50.16s 反AIトリック : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 10.0 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0
#2🥈 #2	Gemini 3.1 Pro Previewmedium	9.6	Google	$0.522	15.56s
モデルカードを見る合計テスト数: 17 誤答テスト数: 1 試行ごとの合格率: 94.1% 不安定なテスト: 0 出力トークン: 1,527 推論トークン: 36,341 応答時間: 平均 15.56s · 合計 155.64s · 最大 40.61s 不正解: 1 反AIトリック : 10.0 複合 : 9.5 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0
#3🥉 #3	Gemini 3 Flash Previewlow	8.7	Google	$0.081	5.95s
モデルカードを見る合計テスト数: 17 誤答テスト数: 3 試行ごとの合格率: 84.3% 不安定なテスト: 1 出力トークン: 1,592 推論トークン: 20,556 応答時間: 平均 5.95s · 合計 101.19s · 最大 14.72s 不正解: 3 反AIトリック : 10.0 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 9.9 パズル解決 : 10.0 ツール呼び出し : 10.0
#4#4	Gemini 3 PRO Previewmedium	8.7	Google	$0.197	9.06s
モデルカードを見る合計テスト数: 17 誤答テスト数: 3 試行ごとの合格率: 82.4% 不安定なテスト: 0 出力トークン: 1,508 推論トークン: 10,084 応答時間: 平均 9.06s · 合計 90.58s · 最大 26.24s 不正解: 3 反AIトリック : 10.0 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 9.8 パズル解決 : 10.0 ツール呼び出し : 10.0
#5#5	Seed-2.0-Litemedium	8.5	Bytedance Seed	$0.105	27.78s
モデルカードを見る合計テスト数: 17 誤答テスト数: 5 試行ごとの合格率: 82.4% 不安定なテスト: 3 出力トークン: 2,821 推論トークン: 44,723 応答時間: 平均 27.78s · 合計 472.24s · 最大 168.71s 不正解: 3 指示に従っていない: 2 反AIトリック : 8.3 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 6.7 指示追従 : 10.0 パズル解決 : 9.0 ツール呼び出し : 10.0
#6#6	Qwen3.6 Plus Previewmedium	8.5	Qwen	$0.000	13.94s
モデルカードを見る合計テスト数: 17 誤答テスト数: 4 試行ごとの合格率: 76.5% 不安定なテスト: 0 出力トークン: 1,756 推論トークン: 77,213 応答時間: 平均 13.94s · 合計 237.01s · 最大 43.55s 不正解: 3 指示に従っていない: 1 反AIトリック : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 5.1 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0
#7#7	GPT-5.3-Codexmedium	8.5	OpenAI	$0.544	15.76s
モデルカードを見る合計テスト数: 17 誤答テスト数: 5 試行ごとの合格率: 82.4% 不安定なテスト: 3 出力トークン: 1,788 推論トークン: 33,649 応答時間: 平均 15.76s · 合計 267.97s · 最大 100.93s 不正解: 3 指示に従っていない: 2 反AIトリック : 8.7 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 4.6 指示追従 : 10.0 パズル解決 : 9.0 ツール呼び出し : 10.0
#8#8	Gemini 3.1 Flash Lite Previewhigh	8.4	Google	$2.310	68.83s
モデルカードを見る合計テスト数: 16 誤答テスト数: 4 試行ごとの合格率: 77.1% 不安定なテスト: 1 出力トークン: 1,283 推論トークン: 1,533,310 応答時間: 平均 68.83s · 合計 1101.32s · 最大 280.52s 不正解: 3 指示に従っていない: 1 反AIトリック : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 7.9 パズル解決 : 7.7 ツール呼び出し : 10.0
#9#9	Qwen3.5 Plus 2026-02-15medium	8.4	Qwen	$0.189	39.13s
モデルカードを見る合計テスト数: 17 誤答テスト数: 4 試行ごとの合格率: 82.4% 不安定なテスト: 2 出力トークン: 1,754 推論トークン: 92,522 応答時間: 平均 39.13s · 合計 391.29s · 最大 81.20s タイムアウト: 2 不正解: 2 反AIトリック : 8.2 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.7 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0
#10#10	Qwen3.5-122B-A10Bmedium	8.4	Qwen	$0.505	29.05s
モデルカードを見る合計テスト数: 17 誤答テスト数: 4 試行ごとの合格率: 80.4% 不安定なテスト: 2 出力トークン: 17,313 推論トークン: 151,974 応答時間: 平均 29.05s · 合計 493.86s · 最大 119.29s 不正解: 3 タイムアウト: 1 反AIトリック : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 3.4 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0
#11#11	Qwen3.5-27Bmedium	8.3	Qwen	$0.467	52.01s
モデルカードを見る合計テスト数: 17 誤答テスト数: 5 試行ごとの合格率: 80.4% 不安定なテスト: 3 出力トークン: 2,125 推論トークン: 223,335 応答時間: 平均 52.01s · 合計 884.10s · 最大 163.96s 指示に従っていない: 2 余分な書式: 1 タイムアウト: 1 不正解: 1 反AIトリック : 8.7 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 6.1 指示追従 : 10.0 パズル解決 : 8.2 ツール呼び出し : 10.0
#12#12	GLM 5medium	8.3	Z.ai	$0.108	17.15s
モデルカードを見る合計テスト数: 17 誤答テスト数: 5 試行ごとの合格率: 84.3% 不安定なテスト: 4 出力トークン: 19,833 推論トークン: 38,523 応答時間: 平均 17.15s · 合計 154.32s · 最大 28.96s 不正解: 2 指示に従っていない: 1 回答なし: 1 タイムアウト: 1 反AIトリック : 10.0 複合 : 10.0 データ解析と抽出 : 7.1 ドメイン特化 : 3.5 汎用知能 : 6.1 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0
#13#13	DeepSeek V3.2medium	8.2	DeepSeek	$0.026	38.49s
モデルカードを見る合計テスト数: 17 誤答テスト数: 5 試行ごとの合格率: 80.4% 不安定なテスト: 3 出力トークン: 9,994 推論トークン: 41,719 応答時間: 平均 38.49s · 合計 654.41s · 最大 93.11s 不正解: 3 指示に従っていない: 1 タイムアウト: 1 反AIトリック : 8.4 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 5.4 指示追従 : 10.0 パズル解決 : 8.2 ツール呼び出し : 10.0
#14#14	Gemini 2.5 Flashmedium	8.1	Google	$0.292	11.88s
モデルカードを見る合計テスト数: 17 誤答テスト数: 5 試行ごとの合格率: 74.5% 不安定なテスト: 1 出力トークン: 1,376 推論トークン: 111,923 応答時間: 平均 11.88s · 合計 201.89s · 最大 95.48s 不正解: 4 指示に従っていない: 1 反AIトリック : 8.4 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 4.8 指示追従 : 9.8 パズル解決 : 7.7 ツール呼び出し : 10.0
#15#15	Gemini 3.1 Flash Lite Previewmedium	8.1	Google	$0.050	3.70s
モデルカードを見る合計テスト数: 17 誤答テスト数: 5 試行ごとの合格率: 70.6% 不安定なテスト: 0 出力トークン: 1,737 推論トークン: 26,346 応答時間: 平均 3.70s · 合計 62.97s · 最大 14.93s 不正解: 4 指示に従っていない: 1 反AIトリック : 9.1 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 7.7 ツール呼び出し : 10.0
#16#16	GPT-5.4medium	8.1	OpenAI	$0.794	18.95s
モデルカードを見る合計テスト数: 17 誤答テスト数: 5 試行ごとの合格率: 78.4% 不安定なテスト: 3 出力トークン: 1,780 推論トークン: 46,687 応答時間: 平均 18.95s · 合計 322.23s · 最大 100.41s 不正解: 3 指示に従っていない: 2 反AIトリック : 8.3 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.7 指示追従 : 10.0 パズル解決 : 8.2 ツール呼び出し : 10.0
#17#17	GLM 5 Turbomedium	8.0	Z.ai	$0.166	17.98s
モデルカードを見る合計テスト数: 17 誤答テスト数: 6 試行ごとの合格率: 76.5% 不安定なテスト: 5 出力トークン: 11,865 推論トークン: 35,632 応答時間: 平均 17.98s · 合計 305.72s · 最大 194.23s 不正解: 3 指示に従っていない: 2 タイムアウト: 1 反AIトリック : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 6.1 指示追従 : 10.0 パズル解決 : 7.3 ツール呼び出し : 10.0
#18#18	Gemini 3.1 Flash Lite Previewlow	8.0	Google	$0.021	3.28s
モデルカードを見る合計テスト数: 17 誤答テスト数: 5 試行ごとの合格率: 70.6% 不安定なテスト: 0 出力トークン: 1,617 推論トークン: 7,686 応答時間: 平均 3.28s · 合計 55.80s · 最大 11.91s 不正解: 4 指示に従っていない: 1 反AIトリック : 8.3 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0
#19#19	Gemini 3 Flash Previewnone	8.0	Google	$0.019	1.66s
モデルカードを見る合計テスト数: 17 誤答テスト数: 5 試行ごとの合格率: 76.5% 不安定なテスト: 2 出力トークン: 1,417 推論トークン: 0 応答時間: 平均 1.66s · 合計 16.61s · 最大 3.56s 不正解: 5 反AIトリック : 8.3 複合 : 4.7 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 10.0 指示追従 : 6.4 パズル解決 : 7.7 ツール呼び出し : 10.0
#20#20	Qwen3.5-Flashmedium	8.0	Qwen	$0.076	67.96s
モデルカードを見る合計テスト数: 17 誤答テスト数: 6 試行ごとの合格率: 82.4% 不安定なテスト: 5 出力トークン: 1,827 推論トークン: 179,299 応答時間: 平均 67.96s · 合計 1155.28s · 最大 234.29s タイムアウト: 3 API エラー: 1 指示に従っていない: 1 不正解: 1 反AIトリック : 10.0 複合 : 10.0 データ解析と抽出 : 7.3 ドメイン特化 : 5.3 汎用知能 : 6.1 指示追従 : 10.0 パズル解決 : 6.4 ツール呼び出し : 10.0
#21#21	MiMo-V2-Promedium	8.0	Xiaomi	$0.123	9.78s
モデルカードを見る合計テスト数: 17 誤答テスト数: 6 試行ごとの合格率: 76.5% 不安定なテスト: 3 出力トークン: 1,875 推論トークン: 26,959 応答時間: 平均 9.78s · 合計 156.45s · 最大 64.71s 不正解: 3 余分な書式: 1 指示に従っていない: 1 タイムアウト: 1 反AIトリック : 10.0 複合 : 4.7 データ解析と抽出 : 7.3 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 9.9 パズル解決 : 7.0 ツール呼び出し : 10.0
#22#22	Claude Sonnet 4.6medium	7.9	Anthropic	$1.024	10.09s
モデルカードを見る合計テスト数: 17 誤答テスト数: 5 試行ごとの合格率: 72.6% 不安定なテスト: 1 出力トークン: 35,174 推論トークン: 24,687 応答時間: 平均 10.09s · 合計 90.85s · 最大 46.35s 余分な書式: 2 不正解: 2 タイムアウト: 1 反AIトリック : 6.5 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0
#23#23	MiMo-V2-Omnimedium	7.9	Xiaomi	$0.084	13.71s
モデルカードを見る合計テスト数: 17 誤答テスト数: 6 試行ごとの合格率: 64.7% 不安定なテスト: 0 出力トークン: 663 推論トークン: 39,001 応答時間: 平均 13.71s · 合計 233.06s · 最大 158.78s 指示に従っていない: 2 不正解: 2 余分な書式: 1 回答なし: 1 反AIトリック : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 10.0 指示追従 : 8.3 パズル解決 : 6.5 ツール呼び出し : 10.0
#24#24	Grok 4.20 Betamedium	7.9	X AI	$0.608	8.54s
モデルカードを見る合計テスト数: 17 誤答テスト数: 6 試行ごとの合格率: 72.6% 不安定なテスト: 2 出力トークン: 1,487 推論トークン: 87,922 応答時間: 平均 8.54s · 合計 145.26s · 最大 24.21s 指示に従っていない: 3 不正解: 3 反AIトリック : 8.7 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 8.3 パズル解決 : 8.2 ツール呼び出し : 3.0
#25#25	Step 3.5 Flashmedium	7.9	Stepfun	$0.000	26.78s
モデルカードを見る合計テスト数: 17 誤答テスト数: 6 試行ごとの合格率: 70.6% 不安定なテスト: 2 出力トークン: 71,904 推論トークン: 155,607 応答時間: 平均 26.78s · 合計 294.58s · 最大 170.45s 指示に従っていない: 3 不正解: 3 反AIトリック : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 5.5 指示追従 : 8.5 パズル解決 : 5.3 ツール呼び出し : 10.0
#26#26	Gemini 3.1 Flash Lite Previewnone	7.8	Google	$0.015	1.29s
モデルカードを見る合計テスト数: 17 誤答テスト数: 6 試行ごとの合格率: 68.6% 不安定なテスト: 1 出力トークン: 4,721 推論トークン: 0 応答時間: 平均 1.29s · 合計 21.95s · 最大 3.39s 不正解: 4 指示に従っていない: 2 反AIトリック : 7.5 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0
#27#27	GPT-5.2 Chatnone	7.8	OpenAI	$0.271	6.72s
モデルカードを見る合計テスト数: 17 誤答テスト数: 6 試行ごとの合格率: 74.5% 不安定なテスト: 3 出力トークン: 16,001 推論トークン: 0 応答時間: 平均 6.72s · 合計 114.20s · 最大 38.52s 不正解: 5 指示に従っていない: 1 反AIトリック : 8.7 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.4 指示追従 : 7.5 パズル解決 : 7.7 ツール呼び出し : 10.0
#28#28	MiMo-V2-Flashmedium	7.6	Xiaomi	$0.037	24.30s
モデルカードを見る合計テスト数: 17 誤答テスト数: 6 試行ごとの合格率: 70.6% 不安定なテスト: 2 出力トークン: 11,959 推論トークン: 111,534 応答時間: 平均 24.30s · 合計 267.31s · 最大 96.01s 不正解: 3 API エラー: 1 余分な書式: 1 指示に従っていない: 1 反AIトリック : 8.1 複合 : 9.8 データ解析と抽出 : 6.5 ドメイン特化 : 5.9 汎用知能 : 4.0 指示追従 : 10.0 パズル解決 : 7.7 ツール呼び出し : 10.0
#29#29	GPT-5.3 Chatnone	7.6	OpenAI	$0.318	5.68s
モデルカードを見る合計テスト数: 17 誤答テスト数: 7 試行ごとの合格率: 66.7% 不安定なテスト: 3 出力トークン: 19,348 推論トークン: 0 応答時間: 平均 5.68s · 合計 96.58s · 最大 18.33s 不正解: 5 指示に従っていない: 2 反AIトリック : 6.7 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.5 汎用知能 : 4.6 指示追従 : 8.3 パズル解決 : 10.0 ツール呼び出し : 10.0
#30#30	Claude Opus 4.6medium	7.5	Anthropic	$1.317	20.87s
モデルカードを見る合計テスト数: 17 誤答テスト数: 6 試行ごとの合格率: 68.6% 不安定なテスト: 2 出力トークン: 26,343 推論トークン: 17,434 応答時間: 平均 20.87s · 合計 208.73s · 最大 83.40s 余分な書式: 4 不正解: 2 反AIトリック : 6.4 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 7.7 ツール呼び出し : 10.0
#31#31	GPT-5.4 Nanomedium	7.4	OpenAI	$0.077	11.08s
モデルカードを見る合計テスト数: 17 誤答テスト数: 7 試行ごとの合格率: 66.7% 不安定なテスト: 2 出力トークン: 2,474 推論トークン: 54,516 応答時間: 平均 11.08s · 合計 188.39s · 最大 94.06s 不正解: 4 指示に従っていない: 3 反AIトリック : 8.3 複合 : 9.8 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 4.5 指示追従 : 9.8 パズル解決 : 4.0 ツール呼び出し : 10.0
#32#32	Seed-2.0-Minimedium	7.3	Bytedance Seed	$0.029	60.58s
モデルカードを見る合計テスト数: 17 誤答テスト数: 7 試行ごとの合格率: 64.7% 不安定なテスト: 2 出力トークン: 1,971 推論トークン: 58,624 応答時間: 平均 60.58s · 合計 848.16s · 最大 262.83s タイムアウト: 4 不正解: 2 指示に従っていない: 1 反AIトリック : 6.6 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 5.1 指示追従 : 10.0 パズル解決 : 8.2 ツール呼び出し : 10.0
#33#33	GPT-5.2medium	7.3	OpenAI	$0.314	13.93s
モデルカードを見る合計テスト数: 17 誤答テスト数: 7 試行ごとの合格率: 70.6% 不安定なテスト: 4 出力トークン: 2,238 推論トークン: 16,811 応答時間: 平均 13.93s · 合計 139.29s · 最大 77.80s 指示に従っていない: 3 不正解: 2 回答なし: 1 タイムアウト: 1 反AIトリック : 6.5 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 3.7 指示追従 : 9.9 パズル解決 : 7.7 ツール呼び出し : 4.7
#34#34	Qwen3.5-35B-A3Bmedium	7.3	Qwen	$0.349	42.48s
モデルカードを見る合計テスト数: 17 誤答テスト数: 8 試行ごとの合格率: 78.4% 不安定なテスト: 7 出力トークン: 5,864 推論トークン: 175,683 応答時間: 平均 42.48s · 合計 722.12s · 最大 106.00s タイムアウト: 4 不正解: 2 API エラー: 1 回答なし: 1 反AIトリック : 10.0 複合 : 4.7 データ解析と抽出 : 7.3 ドメイン特化 : 4.1 汎用知能 : 2.8 指示追従 : 10.0 パズル解決 : 6.4 ツール呼び出し : 10.0
#35#35	Claude Sonnet 4.6none	7.3	Anthropic	$0.252	5.12s
モデルカードを見る合計テスト数: 17 誤答テスト数: 7 試行ごとの合格率: 62.8% 不安定なテスト: 1 出力トークン: 6,910 推論トークン: 0 応答時間: 平均 5.12s · 合計 51.16s · 最大 23.84s 余分な書式: 3 不正解: 3 指示に従っていない: 1 反AIトリック : 4.8 複合 : 9.5 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 6.1 指示追従 : 6.5 パズル解決 : 7.7 ツール呼び出し : 10.0
#36#36	Kimi K2.5medium	7.2	Moonshot AI	$0.201	64.59s
モデルカードを見る合計テスト数: 17 誤答テスト数: 8 試行ごとの合格率: 72.6% 不安定なテスト: 6 出力トークン: 40,907 推論トークン: 75,121 応答時間: 平均 64.59s · 合計 645.93s · 最大 137.29s 不正解: 4 指示に従っていない: 2 回答なし: 1 タイムアウト: 1 反AIトリック : 7.3 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.5 汎用知能 : 6.5 指示追従 : 10.0 パズル解決 : 5.3 ツール呼び出し : 10.0
#37#37	GPT-5.4 Minimedium	7.1	OpenAI	$0.289	15.66s
モデルカードを見る合計テスト数: 17 誤答テスト数: 9 試行ごとの合格率: 68.6% 不安定なテスト: 6 出力トークン: 1,708 推論トークン: 58,019 応答時間: 平均 15.66s · 合計 266.14s · 最大 102.91s 指示に従っていない: 5 不正解: 4 反AIトリック : 8.6 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 4.1 汎用知能 : 4.5 指示追従 : 7.4 パズル解決 : 6.8 ツール呼び出し : 4.7
#38#38	Hunter Alphamedium	7.0	Openrouter	$0.000	10.33s
モデルカードを見る合計テスト数: 17 誤答テスト数: 9 試行ごとの合格率: 68.6% 不安定なテスト: 6 出力トークン: 4,724 推論トークン: 17,921 応答時間: 平均 10.33s · 合計 175.60s · 最大 30.53s 不正解: 4 指示に従っていない: 2 タイムアウト: 2 余分な書式: 1 反AIトリック : 7.3 複合 : 4.7 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 7.0 指示追従 : 9.9 パズル解決 : 6.1 ツール呼び出し : 10.0
#39#39	Grok 4.1 Fastmedium	6.9	X AI	$0.052	23.91s
モデルカードを見る合計テスト数: 17 誤答テスト数: 8 試行ごとの合格率: 66.7% 不安定なテスト: 5 出力トークン: 1,189 推論トークン: 84,595 応答時間: 平均 23.91s · 合計 239.09s · 最大 121.79s 指示に従っていない: 3 不正解: 3 回答なし: 1 タイムアウト: 1 反AIトリック : 8.7 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.8 汎用知能 : 4.2 指示追従 : 6.6 パズル解決 : 5.3 ツール呼び出し : 2.8
#40#40	Nemotron 3 Supermedium	6.9	NVIDIA	$0.000	19.06s
モデルカードを見る合計テスト数: 17 誤答テスト数: 8 試行ごとの合格率: 58.8% 不安定なテスト: 3 出力トークン: 11,947 推論トークン: 29,768 応答時間: 平均 19.06s · 合計 305.04s · 最大 87.80s 指示に従っていない: 4 不正解: 3 タイムアウト: 1 反AIトリック : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 3.8 指示追従 : 7.2 パズル解決 : 3.5 ツール呼び出し : 10.0
#41#41	GPT-5 Minimedium	6.8	OpenAI	$0.118	24.02s
モデルカードを見る合計テスト数: 17 誤答テスト数: 9 試行ごとの合格率: 58.8% 不安定なテスト: 3 出力トークン: 5,896 推論トークン: 49,322 応答時間: 平均 24.02s · 合計 408.39s · 最大 88.15s 指示に従っていない: 4 不正解: 4 タイムアウト: 1 反AIトリック : 7.1 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.6 汎用知能 : 4.5 指示追従 : 8.0 パズル解決 : 5.6 ツール呼び出し : 10.0
#42#42	Qwen3.5 Plus 2026-02-15none	6.8	Qwen	$0.016	2.51s
モデルカードを見る合計テスト数: 17 誤答テスト数: 8 試行ごとの合格率: 54.9% 不安定なテスト: 1 出力トークン: 2,018 推論トークン: 0 応答時間: 平均 2.51s · 合計 27.60s · 最大 6.65s 不正解: 8 反AIトリック : 4.8 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.4 指示追従 : 10.0 パズル解決 : 7.7 ツール呼び出し : 10.0
#43#43	GLM 5none	6.7	Z.ai	$0.019	3.77s
モデルカードを見る合計テスト数: 17 誤答テスト数: 8 試行ごとの合格率: 52.9% 不安定なテスト: 0 出力トークン: 1,551 推論トークン: 0 応答時間: 平均 3.77s · 合計 37.66s · 最大 11.07s 不正解: 8 反AIトリック : 4.8 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 7.7 ツール呼び出し : 10.0
#44#44	MiMo-V2-Omninone	6.4	Xiaomi	$0.006	2.01s
モデルカードを見る合計テスト数: 17 誤答テスト数: 9 試行ごとの合格率: 47.1% 不安定なテスト: 0 出力トークン: 469 推論トークン: 0 応答時間: 平均 2.01s · 合計 34.09s · 最大 6.81s 不正解: 7 指示に従っていない: 2 反AIトリック : 4.8 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.5 指示追従 : 6.5 パズル解決 : 8.0 ツール呼び出し : 10.0
#45#45	DeepSeek V3.2none	6.4	DeepSeek	$0.016	12.35s
モデルカードを見る合計テスト数: 17 誤答テスト数: 10 試行ごとの合格率: 51.0% 不安定なテスト: 3 出力トークン: 7,831 推論トークン: 0 応答時間: 平均 12.35s · 合計 209.94s · 最大 115.89s 不正解: 7 余分な書式: 2 無効なツール呼び出し: 1 反AIトリック : 3.2 複合 : 6.5 データ解析と抽出 : 6.3 ドメイン特化 : 3.6 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 8.5 ツール呼び出し : 10.0
#46#46	Mercury 2medium	6.3	Inception	$0.045	2.25s
モデルカードを見る合計テスト数: 17 誤答テスト数: 10 試行ごとの合格率: 51.0% 不安定なテスト: 3 出力トークン: 3,723 推論トークン: 46,120 応答時間: 平均 2.25s · 合計 35.99s · 最大 14.63s 不正解: 6 指示に従っていない: 4 反AIトリック : 6.9 複合 : 10.0 データ解析と抽出 : 7.3 ドメイン特化 : 2.9 汎用知能 : 4.8 指示追従 : 10.0 パズル解決 : 3.9 ツール呼び出し : 10.0
#47#47	GPT-5 Nanomedium	6.2	OpenAI	$0.061	44.47s
モデルカードを見る合計テスト数: 17 誤答テスト数: 10 試行ごとの合格率: 58.8% 不安定なテスト: 7 出力トークン: 4,500 推論トークン: 143,296 応答時間: 平均 44.47s · 合計 444.74s · 最大 204.02s 不正解: 6 指示に従っていない: 3 タイムアウト: 1 反AIトリック : 6.5 複合 : 10.0 データ解析と抽出 : 3.7 ドメイン特化 : 5.2 汎用知能 : 4.1 指示追従 : 8.5 パズル解決 : 5.3 ツール呼び出し : 10.0
#48#48	Grok 4.20 Multi-Agent Betamedium	6.2	X AI	$4.978	8.64s
モデルカードを見る合計テスト数: 17 誤答テスト数: 11 試行ごとの合格率: 54.9% 不安定なテスト: 6 出力トークン: 298,948 推論トークン: 296,529 応答時間: 平均 8.64s · 合計 129.64s · 最大 35.28s 指示に従っていない: 4 不正解: 3 API エラー: 2 余分な書式: 2 反AIトリック : 6.9 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 5.8 指示追従 : 8.3 パズル解決 : 7.2 ツール呼び出し : 3.0
#49#49	Qwen3.5-Flashnone	6.0	Qwen	$0.006	3.36s
モデルカードを見る合計テスト数: 17 誤答テスト数: 10 試行ごとの合格率: 43.1% 不安定なテスト: 1 出力トークン: 3,777 推論トークン: 0 応答時間: 平均 3.36s · 合計 57.15s · 最大 13.73s 不正解: 9 指示に従っていない: 1 反AIトリック : 3.5 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 10.0 指示追従 : 6.3 パズル解決 : 3.3 ツール呼び出し : 10.0
#50#50	gpt-oss-120bmedium	6.0	OpenAI	$0.010	15.05s
モデルカードを見る合計テスト数: 17 誤答テスト数: 10 試行ごとの合格率: 51.0% 不安定なテスト: 5 出力トークン: 13,265 推論トークン: 34,330 応答時間: 平均 15.05s · 合計 150.55s · 最大 50.92s 不正解: 6 指示に従っていない: 4 反AIトリック : 6.7 複合 : 10.0 データ解析と抽出 : 6.4 ドメイン特化 : 2.9 汎用知能 : 4.3 指示追従 : 9.9 パズル解決 : 3.2 ツール呼び出し : 9.8
#51#51	Seed-2.0-Litenone	6.0	Bytedance Seed	$0.016	2.40s
モデルカードを見る合計テスト数: 17 誤答テスト数: 10 試行ごとの合格率: 52.9% 不安定なテスト: 5 出力トークン: 2,749 推論トークン: 0 応答時間: 平均 2.40s · 合計 40.85s · 最大 6.70s 不正解: 10 反AIトリック : 3.0 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.6 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 5.2 ツール呼び出し : 10.0
#52#52	Gemini 2.5 Flashnone	5.9	Google	$0.012	888ms
モデルカードを見る合計テスト数: 17 誤答テスト数: 11 試行ごとの合格率: 41.2% 不安定なテスト: 2 出力トークン: 1,273 推論トークン: 0 応答時間: 平均 888ms · 合計 15.10s · 最大 4.39s 不正解: 10 指示に従っていない: 1 反AIトリック : 3.0 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 5.0 指示追従 : 8.0 パズル解決 : 5.7 ツール呼び出し : 10.0
#53#53	Qwen3.5-35B-A3Bnone	5.9	Qwen	$0.015	3.89s
モデルカードを見る合計テスト数: 17 誤答テスト数: 11 試行ごとの合格率: 47.1% 不安定なテスト: 3 出力トークン: 3,761 推論トークン: 0 応答時間: 平均 3.89s · 合計 66.07s · 最大 47.43s 不正解: 9 指示に従っていない: 2 反AIトリック : 3.4 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 6.5 指示追従 : 6.3 パズル解決 : 3.9 ツール呼び出し : 10.0
#54#54	MiniMax M2.5medium	5.9	Minimax	$0.250	39.65s
モデルカードを見る合計テスト数: 17 誤答テスト数: 12 試行ごとの合格率: 60.8% 不安定なテスト: 10 出力トークン: 107,044 推論トークン: 206,422 応答時間: 平均 39.65s · 合計 396.47s · 最大 237.27s 不正解: 5 指示に従っていない: 3 タイムアウト: 3 無効なツール呼び出し: 1 反AIトリック : 7.9 複合 : 4.5 データ解析と抽出 : 4.6 ドメイン特化 : 2.9 汎用知能 : 3.8 指示追従 : 8.1 パズル解決 : 5.3 ツール呼び出し : 10.0
#55#55	Hunter Alphanone	5.9	Openrouter	$0.000	4.58s
モデルカードを見る合計テスト数: 17 誤答テスト数: 11 試行ごとの合格率: 49.0% 不安定なテスト: 4 出力トークン: 2,278 推論トークン: 0 応答時間: 平均 4.58s · 合計 77.92s · 最大 15.17s 不正解: 9 指示に従っていない: 2 反AIトリック : 3.5 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 6.1 指示追従 : 6.4 パズル解決 : 5.8 ツール呼び出し : 10.0
#56#56	Qwen3.5-122B-A10Bnone	5.8	Qwen	$0.020	3.71s
モデルカードを見る合計テスト数: 17 誤答テスト数: 11 試行ごとの合格率: 37.3% 不安定なテスト: 1 出力トークン: 2,682 推論トークン: 0 応答時間: 平均 3.71s · 合計 63.06s · 最大 46.00s 不正解: 10 指示に従っていない: 1 反AIトリック : 4.8 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 5.0 指示追従 : 4.5 パズル解決 : 5.4 ツール呼び出し : 10.0
#57#57	MiMo-V2-Pronone	5.8	Xiaomi	$0.040	2.31s
モデルカードを見る合計テスト数: 17 誤答テスト数: 11 試行ごとの合格率: 45.1% 不安定なテスト: 3 出力トークン: 1,721 推論トークン: 0 応答時間: 平均 2.31s · 合計 39.25s · 最大 6.58s 不正解: 9 指示に従っていない: 2 反AIトリック : 3.5 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.3 指示追従 : 6.5 パズル解決 : 6.0 ツール呼び出し : 10.0
#58#58	GPT-5.4none	5.6	OpenAI	$0.095	1.43s
モデルカードを見る合計テスト数: 17 誤答テスト数: 11 試行ごとの合格率: 39.2% 不安定なテスト: 2 出力トークン: 1,837 推論トークン: 0 応答時間: 平均 1.43s · 合計 24.27s · 最大 2.89s 不正解: 10 指示に従っていない: 1 反AIトリック : 3.2 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.4 指示追従 : 6.5 パズル解決 : 5.6 ツール呼び出し : 10.0
#59#59	Qwen3.5-27Bnone	5.6	Qwen	$0.016	1.70s
モデルカードを見る合計テスト数: 17 誤答テスト数: 12 試行ごとの合格率: 35.3% 不安定なテスト: 2 出力トークン: 3,164 推論トークン: 0 応答時間: 平均 1.70s · 合計 28.82s · 最大 9.39s 不正解: 10 指示に従っていない: 2 反AIトリック : 4.8 複合 : 2.8 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 5.0 指示追従 : 4.8 パズル解決 : 6.7 ツール呼び出し : 10.0
#60#60	Mistral Small 4medium	5.6	Mistral	$0.026	4.18s
モデルカードを見る合計テスト数: 17 誤答テスト数: 12 試行ごとの合格率: 49.0% 不安定なテスト: 6 出力トークン: 12,288 推論トークン: 28,112 応答時間: 平均 4.18s · 合計 71.03s · 最大 25.25s 不正解: 7 指示に従っていない: 3 API エラー: 2 反AIトリック : 5.6 複合 : 3.0 データ解析と抽出 : 7.3 ドメイン特化 : 5.3 汎用知能 : 4.8 指示追従 : 7.3 パズル解決 : 3.4 ツール呼び出し : 10.0
#61#61	GLM 5 Turbonone	5.6	Z.ai	$0.029	2.89s
モデルカードを見る合計テスト数: 17 誤答テスト数: 11 試行ごとの合格率: 37.3% 不安定なテスト: 1 出力トークン: 1,270 推論トークン: 0 応答時間: 平均 2.89s · 合計 49.05s · 最大 8.21s 不正解: 9 指示に従っていない: 2 反AIトリック : 3.0 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.2 指示追従 : 6.5 パズル解決 : 5.5 ツール呼び出し : 10.0
#62#62	GLM 4.7 Flashnone	5.6	Z.ai	$0.003	3.13s
モデルカードを見る合計テスト数: 17 誤答テスト数: 12 試行ごとの合格率: 39.2% 不安定なテスト: 3 出力トークン: 1,863 推論トークン: 0 応答時間: 平均 3.13s · 合計 31.33s · 最大 7.05s 不正解: 9 指示に従っていない: 2 無効なツール呼び出し: 1 反AIトリック : 5.2 複合 : 3.0 データ解析と抽出 : 7.3 ドメイン特化 : 7.7 汎用知能 : 4.0 指示追従 : 6.5 パズル解決 : 4.4 ツール呼び出し : 2.8
#63#63	Grok 4.20 Betanone	5.3	X AI	$0.090	1.19s
モデルカードを見る合計テスト数: 17 誤答テスト数: 13 試行ごとの合格率: 31.4% 不安定なテスト: 2 出力トークン: 1,517 推論トークン: 0 応答時間: 平均 1.19s · 合計 20.22s · 最大 6.48s 不正解: 9 指示に従っていない: 3 無効なツール呼び出し: 1 反AIトリック : 4.0 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 5.0 指示追従 : 4.8 パズル解決 : 5.9 ツール呼び出し : 10.0
#64#64	Kimi K2.5none	5.3	Moonshot AI	$0.015	10.83s
モデルカードを見る合計テスト数: 17 誤答テスト数: 12 試行ごとの合格率: 37.3% 不安定なテスト: 3 出力トークン: 2,010 推論トークン: 0 応答時間: 平均 10.83s · 合計 108.27s · 最大 42.13s 不正解: 12 反AIトリック : 3.6 複合 : 2.8 データ解析と抽出 : 7.3 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 6.5 パズル解決 : 3.1 ツール呼び出し : 10.0
#65#65	Trinity Large Previewnone	5.3	Arcee AI	$0.000	3.04s
モデルカードを見る合計テスト数: 17 誤答テスト数: 12 試行ごとの合格率: 31.4% 不安定なテスト: 1 出力トークン: 1,843 推論トークン: 0 応答時間: 平均 3.04s · 合計 51.75s · 最大 8.91s 不正解: 10 指示に従っていない: 2 反AIトリック : 3.0 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.4 指示追従 : 4.1 パズル解決 : 5.4 ツール呼び出し : 10.0
#66#66	Mistral Small 4none	5.3	Mistral	$0.006	629ms
モデルカードを見る合計テスト数: 17 誤答テスト数: 12 試行ごとの合格率: 33.3% 不安定なテスト: 1 出力トークン: 1,624 推論トークン: 0 応答時間: 平均 629ms · 合計 10.70s · 最大 1.72s 不正解: 10 指示に従っていない: 2 反AIトリック : 3.4 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.0 指示追従 : 6.5 パズル解決 : 3.1 ツール呼び出し : 10.0
#67#67	Nemotron 3 Supernone	5.2	NVIDIA	$0.000	8.86s
モデルカードを見る合計テスト数: 17 誤答テスト数: 13 試行ごとの合格率: 35.3% 不安定なテスト: 3 出力トークン: 4,225 推論トークン: 0 応答時間: 平均 8.86s · 合計 150.70s · 最大 24.97s 不正解: 9 指示に従っていない: 4 反AIトリック : 4.8 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.6 汎用知能 : 4.2 指示追従 : 4.9 パズル解決 : 5.7 ツール呼び出し : 4.7
#68#68	GPT-4o-mininone	5.0	OpenAI	$0.005	1.94s
モデルカードを見る合計テスト数: 17 誤答テスト数: 13 試行ごとの合格率: 23.5% 不安定なテスト: 0 出力トークン: 1,600 推論トークン: 0 応答時間: 平均 1.94s · 合計 19.44s · 最大 7.58s 不正解: 12 指示に従っていない: 1 反AIトリック : 4.8 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 4.0 指示追従 : 4.8 パズル解決 : 3.7 ツール呼び出し : 10.0
#69#69	MiniMax M2.7medium	5.0	Minimax	$0.072	27.32s
モデルカードを見る合計テスト数: 17 誤答テスト数: 14 試行ごとの合格率: 49.0% 不安定なテスト: 10 出力トークン: 4,517 推論トークン: 47,612 応答時間: 平均 27.32s · 合計 437.10s · 最大 117.04s 指示に従っていない: 6 不正解: 5 タイムアウト: 2 無効なツール呼び出し: 1 反AIトリック : 7.9 複合 : 4.7 データ解析と抽出 : 6.3 ドメイン特化 : 3.0 汎用知能 : 3.9 指示追従 : 3.7 パズル解決 : 3.8 ツール呼び出し : 4.7
#70#70	Qwen3 Coder Nextnone	5.0	Qwen	$0.007	10.82s
モデルカードを見る合計テスト数: 17 誤答テスト数: 13 試行ごとの合格率: 23.5% 不安定なテスト: 0 出力トークン: 3,032 推論トークン: 0 応答時間: 平均 10.82s · 合計 118.99s · 最大 45.14s 不正解: 11 余分な書式: 1 指示に従っていない: 1 反AIトリック : 3.6 複合 : 3.0 データ解析と抽出 : 6.5 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 4.8 パズル解決 : 3.2 ツール呼び出し : 10.0
#71#71	Mercury 2none	4.8	Inception	$0.007	592ms
モデルカードを見る合計テスト数: 17 誤答テスト数: 13 試行ごとの合格率: 29.4% 不安定なテスト: 2 出力トークン: 1,315 推論トークン: 0 応答時間: 平均 592ms · 合計 10.07s · 最大 1.27s 不正解: 12 指示に従っていない: 1 反AIトリック : 3.0 複合 : 3.0 データ解析と抽出 : 7.3 ドメイン特化 : 5.3 汎用知能 : 4.8 指示追従 : 6.5 パズル解決 : 3.1 ツール呼び出し : 10.0
#72#72	GPT-5.4 Mininone	4.8	OpenAI	$0.030	1.17s
モデルカードを見る合計テスト数: 17 誤答テスト数: 13 試行ごとの合格率: 31.4% 不安定なテスト: 3 出力トークン: 2,085 推論トークン: 0 応答時間: 平均 1.17s · 合計 19.82s · 最大 2.52s 不正解: 10 指示に従っていない: 3 反AIトリック : 3.1 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.5 汎用知能 : 4.8 指示追従 : 6.3 パズル解決 : 5.4 ツール呼び出し : 3.0
#73#73	Qwen3.5-9Bnone	4.8	Qwen	$0.005	1.22s
モデルカードを見る合計テスト数: 17 誤答テスト数: 13 試行ごとの合格率: 23.5% 不安定なテスト: 0 出力トークン: 2,945 推論トークン: 0 応答時間: 平均 1.22s · 合計 20.74s · 最大 5.91s 不正解: 9 指示に従っていない: 3 無効なツール呼び出し: 1 反AIトリック : 3.1 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 4.4 指示追従 : 6.5 パズル解決 : 3.2 ツール呼び出し : 10.0
#74#74	Qwen3 Coder Nextmedium	4.8	Qwen	$0.007	11.57s
モデルカードを見る合計テスト数: 17 誤答テスト数: 14 試行ごとの合格率: 25.5% 不安定なテスト: 2 出力トークン: 2,941 推論トークン: 0 応答時間: 平均 11.57s · 合計 127.32s · 最大 81.80s 不正解: 9 指示に従っていない: 5 反AIトリック : 3.5 複合 : 3.0 データ解析と抽出 : 6.5 ドメイン特化 : 5.3 汎用知能 : 6.3 指示追従 : 4.8 パズル解決 : 3.1 ツール呼び出し : 10.0
#75#75	GLM 4.7 Flashmedium	4.7	Z.ai	$0.042	33.44s
モデルカードを見る合計テスト数: 17 誤答テスト数: 13 試行ごとの合格率: 39.2% 不安定なテスト: 7 出力トークン: 38,719 推論トークン: 65,465 応答時間: 平均 33.44s · 合計 334.39s · 最大 174.55s 不正解: 8 指示に従っていない: 2 回答なし: 2 無効なツール呼び出し: 1 反AIトリック : 4.7 複合 : 2.8 データ解析と抽出 : 6.3 ドメイン特化 : 3.5 汎用知能 : 3.6 指示追従 : 6.2 パズル解決 : 2.9 ツール呼び出し : 10.0
#76#76	Qwen3.5-9Bmedium	4.5	Qwen	$0.024	69.21s
モデルカードを見る合計テスト数: 17 誤答テスト数: 14 試行ごとの合格率: 35.3% 不安定なテスト: 6 出力トークン: 18,141 推論トークン: 141,204 応答時間: 平均 69.21s · 合計 968.99s · 最大 226.38s タイムアウト: 11 余分な書式: 1 指示に従っていない: 1 不正解: 1 反AIトリック : 5.1 複合 : 3.0 データ解析と抽出 : 3.6 ドメイン特化 : 3.6 汎用知能 : 2.8 指示追従 : 6.4 パズル解決 : 3.1 ツール呼び出し : 10.0
#77#77	Grok 4.1 Fastnone	4.4	X AI	$0.008	1.76s
モデルカードを見る合計テスト数: 17 誤答テスト数: 14 試行ごとの合格率: 23.5% 不安定なテスト: 2 出力トークン: 1,154 推論トークン: 0 応答時間: 平均 1.76s · 合計 17.56s · 最大 5.51s 不正解: 12 指示に従っていない: 2 反AIトリック : 3.2 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 4.4 指示追従 : 3.0 パズル解決 : 3.2 ツール呼び出し : 2.8
#78#78	MiMo-V2-Flashnone	4.4	Xiaomi	$0.023	2.79s
モデルカードを見る合計テスト数: 17 誤答テスト数: 14 試行ごとの合格率: 27.5% 不安定なテスト: 4 出力トークン: 67,796 推論トークン: 0 応答時間: 平均 2.79s · 合計 36.29s · 最大 19.68s 不正解: 11 API エラー: 1 余分な書式: 1 指示に従っていない: 1 反AIトリック : 3.2 複合 : 3.0 データ解析と抽出 : 2.9 ドメイン特化 : 5.3 汎用知能 : 4.6 指示追従 : 6.5 パズル解決 : 3.6 ツール呼び出し : 10.0
#79#79	GPT-5.4 Nanonone	4.3	OpenAI	$0.009	1.39s
モデルカードを見る合計テスト数: 17 誤答テスト数: 15 試行ごとの合格率: 29.4% 不安定なテスト: 6 出力トークン: 2,185 推論トークン: 0 応答時間: 平均 1.39s · 合計 23.70s · 最大 3.84s 不正解: 12 指示に従っていない: 3 反AIトリック : 3.5 複合 : 3.0 データ解析と抽出 : 6.5 ドメイン特化 : 2.9 汎用知能 : 3.8 指示追従 : 5.0 パズル解決 : 3.7 ツール呼び出し : 10.0
#80#80	LFM2-24B-A2Bnone	4.1	Liquid	$0.001	811ms
モデルカードを見る合計テスト数: 16 誤答テスト数: 15 試行ごとの合格率: 14.6% 不安定なテスト: 2 出力トークン: 1,185 推論トークン: 0 応答時間: 平均 811ms · 合計 11.35s · 最大 2.88s 不正解: 9 API エラー: 4 指示に従っていない: 2 反AIトリック : 3.3 複合 : 3.0 データ解析と抽出 : 3.0 ドメイン特化 : 5.9 汎用知能 : 4.0 指示追従 : 4.8 パズル解決 : 4.4 ツール呼び出し : 3.0

クイック比較

AIベンチマーク リーダーボード

モデルを絞り込む

クイック比較

AIベンチマークリーダーボード