AI BENCHY

AIベンチマークリーダーボード

Name: AI BENCHY モデルベンチマーク結果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-07-02 評価済みモデル数: 174

174/174

順位	モデル	スコア	企業	合計コスト	応答時間（平均）
#121#121	DeepSeek V4 Flashnone	5.5	DeepSeek	$0.007 ↓	26.75s
モデルカードを見る合計テスト数 21 誤答テスト数 16 信頼性 10.0 試行ごとの合格率 30.2% 不安定なテスト 3 入力トークン 50,127 出力トークン 13,710 推論トークン 0 応答時間（平均） 26.75s 応答時間（合計） 561.82s 応答時間（最大） 111.96s 不正解: 12 余分な書式: 2 指示に従っていない: 1 無効なツール呼び出し: 1 反AIトリック : 3.0 コーディング : 4.2 複合 : 4.5 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.2 指示追従 : 6.5 パズル解決 : 3.1 ツール呼び出し : 10.0 雑学 : 3.0
#122#122	Kimi K2.5none	5.5	Moonshot AI	$0.027 ↑	13.18s
モデルカードを見る合計テスト数 21 誤答テスト数 15 信頼性 10.0 試行ごとの合格率 34.9% 不安定なテスト 3 入力トークン 36,034 出力トークン 6,657 推論トークン 0 応答時間（平均） 13.18s 応答時間（合計） 184.47s 応答時間（最大） 42.13s 不正解: 15 反AIトリック : 3.6 コーディング : 5.5 複合 : 2.8 データ解析と抽出 : 7.3 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 6.5 パズル解決 : 3.0 ツール呼び出し : 10.0 雑学 : 3.0
#123#123	MiMo-V2.5-Pronone	5.5	Xiaomi	$0.017 ↓	1.78s
モデルカードを見る合計テスト数 21 誤答テスト数 15 信頼性 10.0 試行ごとの合格率 39.7% 不安定なテスト 4 入力トークン 30,724 出力トークン 3,043 推論トークン 0 応答時間（平均） 1.78s 応答時間（合計） 37.42s 応答時間（最大） 8.32s 不正解: 11 指示に従っていない: 4 反AIトリック : 3.3 コーディング : 4.3 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.0 指示追従 : 6.4 パズル解決 : 6.7 ツール呼び出し : 10.0 雑学 : 3.0
#124#124	Qwen3.6 27Bnone	5.5	Qwen	$0.025 ↓	3.72s
モデルカードを見る合計テスト数 21 誤答テスト数 14 信頼性 10.0 試行ごとの合格率 47.6% 不安定なテスト 6 入力トークン 52,721 出力トークン 3,812 推論トークン 0 応答時間（平均） 3.72s 応答時間（合計） 78.08s 応答時間（最大） 11.82s 不正解: 11 指示に従っていない: 2 無効なツール呼び出し: 1 反AIトリック : 3.8 コーディング : 5.5 複合 : 3.0 データ解析と抽出 : 7.3 ドメイン特化 : 7.7 汎用知能 : 5.2 指示追従 : 6.2 パズル解決 : 5.3 ツール呼び出し : 9.5 雑学 : 3.0
#125#125	Gemma 4 26B A4Bnone	5.5	Google	$0.004 ↓	5.91s
モデルカードを見る合計テスト数 21 誤答テスト数 13 信頼性 10.0 試行ごとの合格率 44.4% 不安定なテスト 2 入力トークン 40,038 出力トークン 1,824 推論トークン 0 応答時間（平均） 5.91s 応答時間（合計） 124.05s 応答時間（最大） 57.10s 不正解: 10 指示に従っていない: 2 タイムアウト: 1 反AIトリック : 8.3 コーディング : 3.7 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.6 汎用知能 : 4.0 指示追従 : 6.3 パズル解決 : 6.2 ツール呼び出し : 10.0 雑学 : 3.0
#126#126	Qwen3.5 Plus 2026-04-20none	5.5	Qwen	$0.032 ↓	4.39s
モデルカードを見る合計テスト数 21 誤答テスト数 14 信頼性 10.0 試行ごとの合格率 41.3% 不安定なテスト 4 入力トークン 38,910 出力トークン 11,145 推論トークン 0 応答時間（平均） 4.39s 応答時間（合計） 92.26s 応答時間（最大） 33.34s 不正解: 12 指示に従っていない: 2 反AIトリック : 4.8 コーディング : 3.9 複合 : 2.8 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.8 指示追従 : 6.2 パズル解決 : 6.7 ツール呼び出し : 10.0 雑学 : 3.0
#127#127	GLM 5 Turbonone	5.3	Z.ai	$0.047 ↑	2.82s
モデルカードを見る合計テスト数 21 誤答テスト数 15 信頼性 10.0 試行ごとの合格率 31.8% 不安定なテスト 2 入力トークン 32,525 出力トークン 1,815 推論トークン 0 応答時間（平均） 2.82s 応答時間（合計） 59.29s 応答時間（最大） 8.21s 不正解: 13 指示に従っていない: 2 反AIトリック : 3.0 コーディング : 3.9 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.2 指示追従 : 6.5 パズル解決 : 5.5 ツール呼び出し : 10.0 雑学 : 3.0
#128#128	Laguna XS 2.1none	5.3	Poolside	$0.003	722ms
モデルカードを見る合計テスト数 21 誤答テスト数 16 信頼性 10.0 試行ごとの合格率 31.8% 不安定なテスト 3 入力トークン 41,148 出力トークン 3,451 推論トークン 0 応答時間（平均） 722ms 応答時間（合計） 15.17s 応答時間（最大） 2.30s 不正解: 14 指示に従っていない: 1 タイムアウト: 1 反AIトリック : 5.3 コーディング : 4.3 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 5.0 指示追従 : 3.8 パズル解決 : 3.0 ツール呼び出し : 10.0 雑学 : 3.0
#129#129	GPT-5.4 Mininone	5.3	OpenAI	$0.038	1.13s
モデルカードを見る合計テスト数 21 誤答テスト数 16 信頼性 10.0 試行ごとの合格率 30.2% 不安定なテスト 3 入力トークン 34,244 出力トークン 2,541 推論トークン 0 応答時間（平均） 1.13s 応答時間（合計） 23.82s 応答時間（最大） 2.52s 不正解: 13 指示に従っていない: 3 反AIトリック : 3.1 コーディング : 5.5 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.5 汎用知能 : 4.8 指示追従 : 6.3 パズル解決 : 5.4 ツール呼び出し : 3.0 雑学 : 3.0
#130#130	Qwen3.5-122B-A10Bnone	5.3	Qwen	$0.020 ↓	3.41s
モデルカードを見る合計テスト数 21 誤答テスト数 15 信頼性 10.0 試行ごとの合格率 31.8% 不安定なテスト 1 入力トークン 47,735 出力トークン 3,383 推論トークン 0 応答時間（平均） 3.41s 応答時間（合計） 71.59s 応答時間（最大） 46.00s 不正解: 13 指示に従っていない: 2 反AIトリック : 4.8 コーディング : 3.7 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 5.0 指示追従 : 6.3 パズル解決 : 3.8 ツール呼び出し : 10.0 雑学 : 3.0
#131#131	DeepSeek V3.2none	5.3	DeepSeek	$0.017 ↓	13.83s
モデルカードを見る合計テスト数 21 誤答テスト数 15 信頼性 10.0 試行ごとの合格率 39.7% 不安定なテスト 6 入力トークン 55,997 出力トークン 11,165 推論トークン 0 応答時間（平均） 13.83s 応答時間（合計） 290.43s 応答時間（最大） 115.89s 不正解: 7 API エラー: 4 余分な書式: 2 指示に従っていない: 1 無効なツール呼び出し: 1 反AIトリック : 3.2 コーディング : 3.1 複合 : 6.5 データ解析と抽出 : 6.3 ドメイン特化 : 2.9 汎用知能 : 4.7 指示追従 : 10.0 パズル解決 : 7.6 ツール呼び出し : 10.0 雑学 : 3.0
#132#132	MiniMax M2.7medium	5.2	Minimax	$0.075 ↓	38.18s
モデルカードを見る合計テスト数 21 誤答テスト数 16 信頼性 10.0 試行ごとの合格率 46.0% 不安定なテスト 8 入力トークン 34,371 出力トークン 8,981 推論トークン 89,812 応答時間（平均） 38.18s 応答時間（合計） 763.60s 応答時間（最大） 196.21s 不正解: 6 指示に従っていない: 5 タイムアウト: 2 API エラー: 1 無効なツール呼び出し: 1 回答なし: 1 反AIトリック : 7.9 コーディング : 5.7 複合 : 4.7 データ解析と抽出 : 6.3 ドメイン特化 : 3.0 汎用知能 : 3.9 指示追従 : 3.8 パズル解決 : 5.9 ツール呼び出し : 4.7 雑学 : 3.0
#133#133	Qwen3.6 35B A3Bnone	5.2	Qwen	$0.031 ↑	3.73s
モデルカードを見る合計テスト数 21 誤答テスト数 17 信頼性 10.0 試行ごとの合格率 30.2% 不安定なテスト 5 入力トークン 19,329 出力トークン 27,755 推論トークン 0 応答時間（平均） 3.73s 応答時間（合計） 70.86s 応答時間（最大） 22.52s 不正解: 13 API エラー: 2 指示に従っていない: 2 反AIトリック : 3.6 コーディング : 5.5 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.5 汎用知能 : 4.4 指示追従 : 6.2 パズル解決 : 3.2 ツール呼び出し : 3.0 雑学 : 3.0
#134#134	Mistral Small 4none	5.1	Mistral	$0.007	630ms
モデルカードを見る合計テスト数 21 誤答テスト数 16 信頼性 10.0 試行ごとの合格率 27.0% 不安定なテスト 1 入力トークン 37,309 出力トークン 2,201 推論トークン 0 応答時間（平均） 630ms 応答時間（合計） 13.22s 応答時間（最大） 1.72s 不正解: 15 指示に従っていない: 1 反AIトリック : 3.4 コーディング : 3.7 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.0 指示追従 : 6.5 パズル解決 : 3.1 ツール呼び出し : 10.0 雑学 : 3.0
#135#135	Qwen3 Coder Nextnone	5.1	Qwen	$0.009 ↓	8.62s
モデルカードを見る合計テスト数 21 誤答テスト数 16 信頼性 10.0 試行ごとの合格率 27.0% 不安定なテスト 1 入力トークン 47,507 出力トークン 3,584 推論トークン 0 応答時間（平均） 8.62s 応答時間（合計） 129.37s 応答時間（最大） 45.14s 不正解: 14 余分な書式: 1 指示に従っていない: 1 反AIトリック : 3.6 コーディング : 4.6 複合 : 3.0 データ解析と抽出 : 6.5 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 6.3 パズル解決 : 3.0 ツール呼び出し : 10.0 雑学 : 3.0
#136#136	North Mini Codenone	5.1	Cohere	$0.000	29.82s
モデルカードを見る合計テスト数 21 誤答テスト数 17 信頼性 8.5 試行ごとの合格率 19.1% 不安定なテスト 0 入力トークン 43,264 出力トークン 8,278 推論トークン 0 応答時間（平均） 29.82s 応答時間（合計） 626.26s 応答時間（最大） 159.85s 不正解: 12 余分な書式: 2 指示に従っていない: 2 無効なツール呼び出し: 1 反AIトリック : 3.0 コーディング : 3.9 複合 : 3.5 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 3.9 指示追従 : 6.5 パズル解決 : 3.5 ツール呼び出し : 9.5 雑学 : 3.0
#137#137	Hunter Alphamedium	5.1	OpenRouter	$0.000	10.33s
モデルカードを見る合計テスト数 18 誤答テスト数 10 信頼性該当なし試行ごとの合格率 55.6% 不安定なテスト 6 入力トークン 28,927 出力トークン 4,682 推論トークン 17,969 応答時間（平均） 10.33s 応答時間（合計） 175.58s 応答時間（最大） 30.53s 不正解: 4 指示に従っていない: 2 タイムアウト: 2 API エラー: 1 余分な書式: 1 反AIトリック : 7.3 コーディング : 9.8 複合 : 4.7 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 7.0 指示追従 : 9.9 パズル解決 : 6.1 ツール呼び出し : 10.0 雑学 : 0.0
#138#138	Mistral Small 4medium	5.1	Mistral	$0.068	9.40s
モデルカードを見る合計テスト数 21 誤答テスト数 16 信頼性 10.0 試行ごとの合格率 44.4% 不安定なテスト 8 入力トークン 42,576 出力トークン 24,184 推論トークン 84,678 応答時間（平均） 9.40s 応答時間（合計） 197.39s 応答時間（最大） 59.15s 不正解: 12 API エラー: 2 指示に従っていない: 2 反AIトリック : 5.6 コーディング : 4.4 複合 : 3.0 データ解析と抽出 : 7.3 ドメイン特化 : 5.3 汎用知能 : 4.8 指示追従 : 7.3 パズル解決 : 3.4 ツール呼び出し : 10.0 雑学 : 3.0
#139#139	MiMo-V2.5none	5.1	Xiaomi	$0.006 ↓	2.20s
モデルカードを見る合計テスト数 21 誤答テスト数 16 信頼性 10.0 試行ごとの合格率 27.0% 不安定なテスト 1 入力トークン 41,985 出力トークン 2,267 推論トークン 0 応答時間（平均） 2.20s 応答時間（合計） 46.21s 応答時間（最大） 6.86s 不正解: 14 余分な書式: 1 指示に従っていない: 1 反AIトリック : 3.5 コーディング : 5.5 複合 : 3.0 データ解析と抽出 : 6.5 ドメイン特化 : 3.0 汎用知能 : 4.4 指示追従 : 6.5 パズル解決 : 5.4 ツール呼び出し : 10.0 雑学 : 3.0
#140#140	Qwen3.5-9Bnone	5.1	Qwen	$0.006 ↑	1.89s
モデルカードを見る合計テスト数 21 誤答テスト数 17 信頼性 10.0 試行ごとの合格率 20.6% 不安定なテスト 1 入力トークン 48,041 出力トークン 3,952 推論トークン 0 応答時間（平均） 1.89s 応答時間（合計） 39.68s 応答時間（最大） 6.03s 不正解: 14 指示に従っていない: 2 無効なツール呼び出し: 1 反AIトリック : 3.1 コーディング : 3.9 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 4.4 指示追従 : 6.5 パズル解決 : 3.2 ツール呼び出し : 10.0 雑学 : 3.0
#141#141	Grok 4.20 Multi Agent Betamedium	5.0	X AI	$5.599 ↑	9.69s
モデルカードを見る合計テスト数 18 誤答テスト数 10 信頼性該当なし試行ごとの合格率 50.8% 不安定なテスト 5 入力トークン 721,952 出力トークン 294,668 推論トークン 305,374 応答時間（平均） 9.69s 応答時間（合計） 155.07s 応答時間（最大） 35.28s 不正解: 4 API エラー: 2 余分な書式: 2 指示に従っていない: 2 反AIトリック : 6.9 コーディング : 3.3 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 5.8 指示追従 : 9.8 パズル解決 : 6.7 ツール呼び出し : 3.0 雑学 : 0.0
#142#142	Trinity Large Previewnone	5.0	Arcee AI	$0.008 ↑	2.98s
モデルカードを見る合計テスト数 21 誤答テスト数 17 信頼性 10.0 試行ごとの合格率 22.2% 不安定なテスト 2 入力トークン 29,828 出力トークン 2,169 推論トークン 0 応答時間（平均） 2.98s 応答時間（合計） 56.57s 応答時間（最大） 14.34s 不正解: 12 指示に従っていない: 3 API エラー: 2 反AIトリック : 3.1 コーディング : 3.7 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.5 指示追従 : 3.5 パズル解決 : 3.6 ツール呼び出し : 10.0 雑学 : 3.0
#143#143	Laguna M.1medium	5.0	Poolside	$0.033 ↕	14.73s
モデルカードを見る合計テスト数 19 誤答テスト数 10 信頼性 10.0 試行ごとの合格率 47.6% 不安定なテスト 2 入力トークン 44,969 出力トークン 58,087 推論トークン 0 応答時間（平均） 14.73s 応答時間（合計） 220.93s 応答時間（最大） 53.14s API エラー: 4 不正解: 4 指示に従っていない: 1 回答なし: 1 反AIトリック : 6.5 コーディング : 1.5 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 3.0 指示追従 : 10.0 パズル解決 : 5.3 ツール呼び出し : 10.0 雑学 : 3.0
#144#144	GPT-4o-mininone	5.0	OpenAI	$0.006	1.77s
モデルカードを見る合計テスト数 21 誤答テスト数 16 信頼性 10.0 試行ごとの合格率 23.8% 不安定なテスト 0 入力トークン 31,518 出力トークン 1,982 推論トークン 0 応答時間（平均） 1.77s 応答時間（合計） 24.80s 応答時間（最大） 7.58s 不正解: 15 指示に従っていない: 1 反AIトリック : 4.8 コーディング : 3.2 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 4.0 指示追従 : 6.3 パズル解決 : 3.5 ツール呼び出し : 10.0 雑学 : 3.0
#145#145	Cobuddymedium	4.9	Baidu	$0.000	39.90s
モデルカードを見る合計テスト数 21 誤答テスト数 14 信頼性 10.0 試行ごとの合格率 47.6% 不安定なテスト 6 入力トークン 37,449 出力トークン 1,677 推論トークン 116,703 応答時間（平均） 39.90s 応答時間（合計） 797.98s 応答時間（最大） 309.02s 不正解: 9 指示に従っていない: 3 API エラー: 1 無効なツール呼び出し: 1 反AIトリック : 8.7 コーディング : 3.7 複合 : 3.0 データ解析と抽出 : 6.3 ドメイン特化 : 2.9 汎用知能 : 4.2 指示追従 : 9.8 パズル解決 : 3.6 ツール呼び出し : 10.0 雑学 : 3.0
#146#146	GLM 4.7 Flashnone	4.9	Z.ai	$0.004	2.86s
モデルカードを見る合計テスト数 21 誤答テスト数 15 信頼性 10.0 試行ごとの合格率 36.5% 不安定なテスト 3 入力トークン 38,745 出力トークン 2,521 推論トークン 0 応答時間（平均） 2.86s 応答時間（合計） 40.04s 応答時間（最大） 7.05s 不正解: 13 指示に従っていない: 1 無効なツール呼び出し: 1 反AIトリック : 5.2 コーディング : 4.3 複合 : 3.0 データ解析と抽出 : 7.3 ドメイン特化 : 7.7 汎用知能 : 4.0 指示追従 : 6.5 パズル解決 : 6.4 ツール呼び出し : 2.8 雑学 : 3.0
#147#147	Nemotron 3 Supernone	4.9	NVIDIA	$0.006 ↑	5.30s
モデルカードを見る合計テスト数 21 誤答テスト数 16 信頼性 10.0 試行ごとの合格率 31.8% 不安定なテスト 3 入力トークン 36,456 出力トークン 6,195 推論トークン 0 応答時間（平均） 5.30s 応答時間（合計） 111.31s 応答時間（最大） 16.45s 不正解: 14 指示に従っていない: 2 反AIトリック : 4.8 コーディング : 3.3 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.6 汎用知能 : 4.6 指示追従 : 6.3 パズル解決 : 5.5 ツール呼び出し : 4.7 雑学 : 3.0
#148#148	Ling-2.6-flashnone	4.9	Inclusionai	$0.001 ↑	9.34s
モデルカードを見る合計テスト数 21 誤答テスト数 15 信頼性 10.0 試行ごとの合格率 31.8% 不安定なテスト 2 入力トークン 40,718 出力トークン 2,878 推論トークン 0 応答時間（平均） 9.34s 応答時間（合計） 177.48s 応答時間（最大） 35.34s 不正解: 9 API エラー: 2 指示に従っていない: 2 無効なツール呼び出し: 2 反AIトリック : 6.8 コーディング : 5.3 複合 : 3.0 データ解析と抽出 : 6.5 ドメイン特化 : 3.0 汎用知能 : 4.0 指示追従 : 9.8 パズル解決 : 2.9 ツール呼び出し : 3.0 雑学 : 3.0
#149#149	Ring-2.6-1Tnone	4.8	Inclusionai	$0.026 ↕	55.10s
モデルカードを見る合計テスト数 21 誤答テスト数 12 信頼性 10.0 試行ごとの合格率 47.6% 不安定なテスト 2 入力トークン 7,599 出力トークン 39,954 推論トークン 0 応答時間（平均） 55.10s 応答時間（合計） 881.55s 応答時間（最大） 143.82s API エラー: 5 不正解: 5 指示に従っていない: 2 反AIトリック : 9.2 コーディング : 5.3 複合 : 3.0 データ解析と抽出 : 3.0 ドメイン特化 : 5.3 汎用知能 : 4.3 指示追従 : 9.8 パズル解決 : 7.7 ツール呼び出し : 3.0 雑学 : 3.0
#150#150	GPT-5.4 Nanonone	4.8	OpenAI	$0.011	1.48s
モデルカードを見る合計テスト数 21 誤答テスト数 17 信頼性 10.0 試行ごとの合格率 30.2% 不安定なテスト 5 入力トークン 34,212 出力トークン 2,784 推論トークン 0 応答時間（平均） 1.48s 応答時間（合計） 31.01s 応答時間（最大） 4.47s 不正解: 15 指示に従っていない: 2 反AIトリック : 3.5 コーディング : 4.6 複合 : 3.0 データ解析と抽出 : 6.5 ドメイン特化 : 2.9 汎用知能 : 3.8 指示追従 : 6.3 パズル解決 : 5.4 ツール呼び出し : 10.0 雑学 : 3.0

←

1 2 3 4 5 6

→

クイック比較

Gemini 3.5 FlashhighvsGemini 3 Flash Previewmedium Gemini 3.5 FlashhighvsQwen3.7 Maxmedium Gemini 3.5 FlashhighvsGPT-5.5low Gemini 3.5 FlashhighvsGemini 3.5 Flashlow Gemini 3.5 FlashhighvsClaude Fable 5medium Gemini 3.5 FlashhighvsGemini 3.1 Pro Previewmedium Gemini 3.5 FlashhighvsNemotron 3 Ultra 550b A55bmedium無料で利用可能 Gemini 3.5 FlashhighvsNorth Mini Codemedium無料で利用可能 Gemini 3 Flash PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGPT-5.5low GPT-5.5lowvsGemini 3.5 Flashlow Gemini 3.5 FlashlowvsClaude Fable 5medium

AIベンチマーク リーダーボード

モデルを絞り込む

クイック比較

AIベンチマークリーダーボード