複合モデルランキング

複合でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 指標 ↑.

表示モデル数

平均複合スコア

5.6

最良モデル

Gemini 3 PRO Preview 1.5

失敗理由

失敗理由無効なツール呼び出しで91 失敗理由不正解で69 失敗理由回答なしで32 失敗理由 API エラーで26 失敗理由タイムアウトで5 失敗理由余分な書式で1 失敗理由指示に従っていないで1

216/216

順位	モデル	企業	複合スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#164	KAT-Coder-Air V2.5 low	Kwaipilot	6.4	5.4	$0.041	1/2	55.9s
合計テスト数 2 誤答テスト数 1 合計コスト $0.041 応答時間（平均） 55.9s
#20	Claude Fable 5 medium	Anthropic	6.5	8.6	$3.478	1/2	27.5s
合計テスト数 2 誤答テスト数 1 合計コスト $3.478 応答時間（平均） 27.5s
#23	Grok 4.5 low	X AI	6.5	8.4	$0.935	1/2	12.8s
合計テスト数 2 誤答テスト数 1 合計コスト $0.935 応答時間（平均） 12.8s
#37	Kimi K3 max	Moonshot AI	6.5	8.0	$3.112	1/2	223.0s
合計テスト数 2 誤答テスト数 1 合計コスト $3.112 応答時間（平均） 223.0s
#63	Qwen3.7 Max none	Qwen	6.5	7.4	$0.197	1/2	37.2s
合計テスト数 2 誤答テスト数 1 合計コスト $0.197 応答時間（平均） 37.2s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.5	7.2	$0.317	1/2	92.4s
合計テスト数 2 誤答テスト数 1 合計コスト $0.317 応答時間（平均） 92.4s
#77	Grok 4.3 medium	X AI	6.5	7.1	$0.779	1/2	55.1s
合計テスト数 2 誤答テスト数 1 合計コスト $0.779 応答時間（平均） 55.1s
#87	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	1/2	8.37s
合計テスト数 2 誤答テスト数 1 合計コスト $0.524 応答時間（平均） 8.37s
#89	Qwen3.6 Flash medium	Qwen	6.5	6.9	$0.738	1/2	299.2s
合計テスト数 2 誤答テスト数 1 合計コスト $0.738 応答時間（平均） 299.2s
#91	GPT-5.5 none	OpenAI	6.5	6.9	$0.544	1/2	8.90s
合計テスト数 2 誤答テスト数 1 合計コスト $0.544 応答時間（平均） 8.90s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
合計テスト数 2 誤答テスト数 1 合計コスト $0.231 応答時間（平均） 61.6s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	6.5	6.4	$0.073	1/2	64.8s
合計テスト数 2 誤答テスト数 1 合計コスト $0.073 応答時間（平均） 64.8s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	28.4s
合計テスト数 2 誤答テスト数 1 合計コスト $0.044 応答時間（平均） 28.4s
#118	Claude Sonnet 5 none	Anthropic	6.5	6.3	$0.548	1/2	31.4s
合計テスト数 2 誤答テスト数 1 合計コスト $0.548 応答時間（平均） 31.4s
#127	gpt-oss-120b medium	OpenAI	6.5	6.1	$0.019	1/2	24.0s
合計テスト数 2 誤答テスト数 1 合計コスト $0.019 応答時間（平均） 24.0s

複合ランキング

モデルを絞り込む

複合スコア上位モデル

複合スコア vs 合計コスト

応答時間（平均）上位モデル

複合 ランキング

モデルを絞り込む

複合 スコア 上位モデル

複合 スコア vs 合計コスト

応答時間（平均） 上位モデル

複合ランキング

複合スコア上位モデル

複合スコア vs 合計コスト

応答時間（平均）上位モデル