複合モデルランキング

複合でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 指標 ↑.

表示モデル数

平均複合スコア

5.6

最良モデル

Gemini 3 PRO Preview 1.5

失敗理由

失敗理由無効なツール呼び出しで91 失敗理由不正解で69 失敗理由回答なしで32 失敗理由 API エラーで26 失敗理由タイムアウトで5 失敗理由余分な書式で1 失敗理由指示に従っていないで1

216/216

順位	モデル	企業	複合スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#174	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.025	0/2	28.9s
合計テスト数 2 誤答テスト数 2 合計コスト $0.025 応答時間（平均） 28.9s
#175	Qwen3.5-9B none	Qwen	3.0	5.1	$0.021	0/2	194.0s
合計テスト数 2 誤答テスト数 2 合計コスト $0.021 応答時間（平均） 194.0s
#180	GPT-4o-mini none	OpenAI	3.0	5.0	$0.010	0/2	6.32s
合計テスト数 2 誤答テスト数 2 合計コスト $0.010 応答時間（平均） 6.32s
#182	GLM 4.7 Flash none	Z.ai	3.0	4.9	$0.016	0/2	50.2s
合計テスト数 2 誤答テスト数 2 合計コスト $0.016 応答時間（平均） 50.2s
#183	Nemotron 3 Super none	NVIDIA	3.0	4.9	$0.008	0/2	18.2s
合計テスト数 2 誤答テスト数 2 合計コスト $0.008 応答時間（平均） 18.2s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/2	35.7s
合計テスト数 2 誤答テスト数 2 合計コスト $0.002 応答時間（平均） 35.7s
#185	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/2	0ms
合計テスト数 2 誤答テスト数 2 合計コスト $0.026 応答時間（平均） 0ms
#186	GPT-5.4 Nano none	OpenAI	3.0	4.8	$0.041	0/2	14.7s
合計テスト数 2 誤答テスト数 2 合計コスト $0.041 応答時間（平均） 14.7s
#193	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.032	0/2	14.6s
合計テスト数 2 誤答テスト数 2 合計コスト $0.032 応答時間（平均） 14.6s
#195	Mercury 2 none	Inception	3.0	4.6	$0.030	0/2	2.56s
合計テスト数 2 誤答テスト数 2 合計コスト $0.030 応答時間（平均） 2.56s
#207	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.007	0/2	9.28s
合計テスト数 2 誤答テスト数 2 合計コスト $0.007 応答時間（平均） 9.28s
#210	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/2	0ms
合計テスト数 2 誤答テスト数 2 合計コスト $0.036 応答時間（平均） 0ms
#111	Gemini 3.1 Flash Lite low	Google	3.2	6.5	$0.621	0/2	161.2s
合計テスト数 2 誤答テスト数 2 合計コスト $0.621 応答時間（平均） 161.2s
#158	Qwen3.6 27B none	Qwen	3.2	5.5	$0.087	0/2	83.1s
合計テスト数 2 誤答テスト数 2 合計コスト $0.087 応答時間（平均） 83.1s
#165	GPT-5.6 Luna none	OpenAI	3.2	5.4	$0.142	0/2	6.68s
合計テスト数 2 誤答テスト数 2 合計コスト $0.142 応答時間（平均） 6.68s

複合ランキング

モデルを絞り込む

複合スコア上位モデル

複合スコア vs 合計コスト

応答時間（平均）上位モデル

複合 ランキング

モデルを絞り込む

複合 スコア 上位モデル

複合 スコア vs 合計コスト

応答時間（平均） 上位モデル

複合ランキング

複合スコア上位モデル

複合スコア vs 合計コスト

応答時間（平均）上位モデル