汎用知能モデルランキング

汎用知能でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 指標 ↑.

表示モデル数

平均汎用知能スコア

6.1

最良モデル

Qwen3.5-35B-A3B 2.8

失敗理由

失敗理由指示に従っていないで78 失敗理由不正解で62 失敗理由 API エラーで12 失敗理由タイムアウトで4

216/216

順位	モデル	企業	汎用知能スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#206	MiMo-V2-Flash none	Xiaomi	4.6	4.0	$0.025	0/1	1.67s
合計テスト数 1 誤答テスト数 1 合計コスト $0.025 応答時間（平均） 1.67s
#15	Grok 4.5 high	X AI	4.7	8.9	$1.707	0/1	9.82s
合計テスト数 1 誤答テスト数 1 合計コスト $1.707 応答時間（平均） 9.82s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4.7	7.5	$0.437	0/1	79.9s
合計テスト数 1 誤答テスト数 1 合計コスト $0.437 応答時間（平均） 79.9s
#179	DeepSeek V3.2 none	DeepSeek	4.7	5.0	$0.054	0/1	9.32s
合計テスト数 1 誤答テスト数 1 合計コスト $0.054 応答時間（平均） 9.32s
#21	GPT-5.4 medium	OpenAI	4.7	8.5	$1.533	0/1	4.92s
合計テスト数 1 誤答テスト数 1 合計コスト $1.533 応答時間（平均） 4.92s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	4.7	6.9	$0.467	0/1	2.35s
合計テスト数 1 誤答テスト数 1 合計コスト $0.467 応答時間（平均） 2.35s
#118	Claude Sonnet 5 none	Anthropic	4.7	6.3	$0.548	0/1	2.81s
合計テスト数 1 誤答テスト数 1 合計コスト $0.548 応答時間（平均） 2.81s
#28	Gemini 2.5 Flash medium	Google	4.8	8.2	$0.643	0/1	4.86s
合計テスト数 1 誤答テスト数 1 合計コスト $0.643 応答時間（平均） 4.86s
#82	Mercury 2 medium	Inception	4.8	7.0	$0.093	0/1	821ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.093 応答時間（平均） 821ms
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	4.8	6.1	$0.122	0/1	1.41s
合計テスト数 1 誤答テスト数 1 合計コスト $0.122 応答時間（平均） 1.41s
#142	GPT-5.4 Mini none	OpenAI	4.8	5.9	$0.095	0/1	1.82s
合計テスト数 1 誤答テスト数 1 合計コスト $0.095 応答時間（平均） 1.82s
#173	Mistral Small 4 medium	Mistral	4.8	5.1	$0.096	0/1	2.05s
合計テスト数 1 誤答テスト数 1 合計コスト $0.096 応答時間（平均） 2.05s
#195	Mercury 2 none	Inception	4.8	4.6	$0.030	0/1	628ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.030 応答時間（平均） 628ms
#203	Grok 4.20 none	X AI	4.8	4.1	$0.057	0/1	659ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.057 応答時間（平均） 659ms
#212	gpt-oss-120b none	OpenAI	4.8	3.7	$0.010	0/1	10.8s
合計テスト数 1 誤答テスト数 1 合計コスト $0.010 応答時間（平均） 10.8s

汎用知能ランキング

モデルを絞り込む

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル

汎用知能 ランキング

モデルを絞り込む

汎用知能 スコア 上位モデル

汎用知能 スコア vs 合計コスト

応答時間（平均） 上位モデル

汎用知能ランキング

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル