汎用知能モデルランキング

汎用知能でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 正解テスト ↓.

表示モデル数

平均汎用知能スコア

6.1

最良モデル

Gemini 3.6 Flash 10.0

失敗理由

失敗理由指示に従っていないで78 失敗理由不正解で62 失敗理由 API エラーで12 失敗理由タイムアウトで4

216/216

順位	モデル	企業	汎用知能スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#148	Qwen3.5-122B-A10B none	Qwen	5.0	5.7	$0.247	0/1	1.12s
合計テスト数 1 誤答テスト数 1 合計コスト $0.247 応答時間（平均） 1.12s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	0/1	45.7s
合計テスト数 1 誤答テスト数 1 合計コスト $2.044 応答時間（平均） 45.7s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	5.1	5.6	$0.077	0/1	7.10s
合計テスト数 1 誤答テスト数 1 合計コスト $0.077 応答時間（平均） 7.10s
#151	GLM 5V Turbo none	Z.ai	4.6	5.6	$0.052	0/1	2.22s
合計テスト数 1 誤答テスト数 1 合計コスト $0.052 応答時間（平均） 2.22s
#152	Owl Alpha medium	Openrouter	4.3	5.6	$0.000	0/1	58.6s
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 58.6s
#153	Mimo V2 PRO none	Xiaomi	4.3	5.6	$0.045	0/1	2.44s
合計テスト数 1 誤答テスト数 1 合計コスト $0.045 応答時間（平均） 2.44s
#154	Owl Alpha none	Openrouter	4.3	5.6	$0.000	0/1	4.61s
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 4.61s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	5.0	5.6	$0.048	0/1	9.81s
合計テスト数 1 誤答テスト数 1 合計コスト $0.048 応答時間（平均） 9.81s
#156	DeepSeek V4 Flash none	DeepSeek	4.2	5.6	$0.042	0/1	23.7s
合計テスト数 1 誤答テスト数 1 合計コスト $0.042 応答時間（平均） 23.7s
#157	GLM 5.1 none	Z.ai	5.0	5.5	$0.164	0/1	790ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.164 応答時間（平均） 790ms
#158	Qwen3.6 27B none	Qwen	5.2	5.5	$0.087	0/1	1.07s
合計テスト数 1 誤答テスト数 1 合計コスト $0.087 応答時間（平均） 1.07s
#159	Hy3 preview low	Tencent	3.0	5.5	$0.015	0/1	0ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.015 応答時間（平均） 0ms
#160	MiMo-V2.5-Pro none	Xiaomi	4.0	5.5	$0.068	0/1	2.58s
合計テスト数 1 誤答テスト数 1 合計コスト $0.068 応答時間（平均） 2.58s
#162	Gemma 4 26B A4B none	Google	4.0	5.5	$0.015	0/1	3.54s
合計テスト数 1 誤答テスト数 1 合計コスト $0.015 応答時間（平均） 3.54s
#163	Mimo V2 Omni none	Xiaomi	4.1	5.5	$0.021	0/1	2.33s
合計テスト数 1 誤答テスト数 1 合計コスト $0.021 応答時間（平均） 2.33s

汎用知能ランキング

モデルを絞り込む

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル

汎用知能 ランキング

モデルを絞り込む

汎用知能 スコア 上位モデル

汎用知能 スコア vs 合計コスト

応答時間（平均） 上位モデル

汎用知能ランキング

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル