複合モデルランキング

複合でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 指標 ↑.

表示モデル数

平均複合スコア

5.6

最良モデル

Gemini 3 PRO Preview 1.5

失敗理由

失敗理由無効なツール呼び出しで91 失敗理由不正解で69 失敗理由回答なしで32 失敗理由 API エラーで26 失敗理由タイムアウトで5 失敗理由余分な書式で1 失敗理由指示に従っていないで1

216/216

順位	モデル	企業	複合スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#179	DeepSeek V3.2 none	DeepSeek	4.8	5.0	$0.054	0/2	113.5s
合計テスト数 2 誤答テスト数 2 合計コスト $0.054 応答時間（平均） 113.5s
#119	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
合計テスト数 1 誤答テスト数 0 合計コスト $0.043 応答時間（平均） 75.7s
#42	GLM 5.2 medium	Z.ai	5.0	7.8	$0.187	1/1	52.0s
合計テスト数 1 誤答テスト数 0 合計コスト $0.187 応答時間（平均） 52.0s
#46	GLM 5 medium	Z.ai	5.0	7.7	$0.307	1/1	29.0s
合計テスト数 1 誤答テスト数 0 合計コスト $0.307 応答時間（平均） 29.0s
#53	GLM 5 Turbo medium	Z.ai	5.0	7.6	$0.323	1/1	13.9s
合計テスト数 1 誤答テスト数 0 合計コスト $0.323 応答時間（平均） 13.9s
#106	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
合計テスト数 1 誤答テスト数 0 合計コスト $0.018 応答時間（平均） 46.0s
#137	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
合計テスト数 1 誤答テスト数 0 合計コスト $0.750 応答時間（平均） 20.9s
#140	Mimo V2 Omni medium	Xiaomi	5.0	5.9	$0.683	1/1	25.9s
合計テスト数 1 誤答テスト数 0 合計コスト $0.683 応答時間（平均） 25.9s
#141	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
合計テスト数 1 誤答テスト数 0 合計コスト $0.048 応答時間（平均） 113.1s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	1/1	149.2s
合計テスト数 1 誤答テスト数 0 合計コスト $2.044 応答時間（平均） 149.2s
#159	Hy3 preview low	Tencent	5.0	5.5	$0.015	1/1	78.7s
合計テスト数 1 誤答テスト数 0 合計コスト $0.015 応答時間（平均） 78.7s
#169	Gemini 3.1 Flash Lite Preview high	Google	5.0	5.3	$2.310	1/1	280.5s
合計テスト数 1 誤答テスト数 0 合計コスト $2.310 応答時間（平均） 280.5s
#181	Qwen3.6 Plus Preview medium	Qwen	5.0	4.9	$0.000	1/1	35.0s
合計テスト数 1 誤答テスト数 0 合計コスト $0.000 応答時間（平均） 35.0s
#191	Grok 4.1 Fast medium	X AI	5.0	4.7	$0.069	1/1	37.6s
合計テスト数 1 誤答テスト数 0 合計コスト $0.069 応答時間（平均） 37.6s
#148	Qwen3.5-122B-A10B none	Qwen	5.2	5.7	$0.247	0/2	129.3s
合計テスト数 2 誤答テスト数 2 合計コスト $0.247 応答時間（平均） 129.3s

複合ランキング

モデルを絞り込む

複合スコア上位モデル

複合スコア vs 合計コスト

応答時間（平均）上位モデル

複合 ランキング

モデルを絞り込む

複合 スコア 上位モデル

複合 スコア vs 合計コスト

応答時間（平均） 上位モデル

複合ランキング

複合スコア上位モデル

複合スコア vs 合計コスト

応答時間（平均）上位モデル