汎用知能モデルランキング

汎用知能でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。

表示モデル数

平均汎用知能スコア

6.1

最良モデル

Gemini 3.6 Flash 10.0

失敗理由

失敗理由指示に従っていないで78 失敗理由不正解で62 失敗理由 API エラーで12 失敗理由タイムアウトで4

216/216

順位	モデル	企業	汎用知能スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#158	Qwen3.6 27B none	Qwen	5.2	5.5	$0.087	0/1	1.07s
合計テスト数 1 誤答テスト数 1 合計コスト $0.087 応答時間（平均） 1.07s
#51	MiniMax M3 medium	Minimax	5.1	7.6	$0.286	0/1	33.3s
合計テスト数 1 誤答テスト数 1 合計コスト $0.286 応答時間（平均） 33.3s
#84	Seed-2.0-Mini medium	Bytedance Seed	5.1	7.0	$0.101	0/1	36.7s
合計テスト数 1 誤答テスト数 1 合計コスト $0.101 応答時間（平均） 36.7s
#38	GPT-5.6 Terra high	OpenAI	5.1	8.0	$1.055	0/1	3.03s
合計テスト数 1 誤答テスト数 1 合計コスト $1.055 応答時間（平均） 3.03s
#41	Qwen3.6 Plus medium	Qwen	5.1	7.8	$0.405	0/1	27.1s
合計テスト数 1 誤答テスト数 1 合計コスト $0.405 応答時間（平均） 27.1s
#54	GPT-5.6 Luna medium	OpenAI	5.1	7.6	$0.352	0/1	4.34s
合計テスト数 1 誤答テスト数 1 合計コスト $0.352 応答時間（平均） 4.34s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	5.1	7.2	$0.482	0/1	3.27s
合計テスト数 1 誤答テスト数 1 合計コスト $0.482 応答時間（平均） 3.27s
#102	LongCat 2.0 high	Meituan	5.1	6.6	$0.469	0/1	17.0s
合計テスト数 1 誤答テスト数 1 合計コスト $0.469 応答時間（平均） 17.0s
#143	North Mini Code medium	Cohere	5.1	5.9	$0.000	0/1	25.1s
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 25.1s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	5.1	5.6	$0.077	0/1	7.10s
合計テスト数 1 誤答テスト数 1 合計コスト $0.077 応答時間（平均） 7.10s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	0/1	45.7s
合計テスト数 1 誤答テスト数 1 合計コスト $2.044 応答時間（平均） 45.7s
#48	GPT-5.6 Luna high	OpenAI	5.0	7.7	$1.017	0/1	3.65s
合計テスト数 1 誤答テスト数 1 合計コスト $1.017 応答時間（平均） 3.65s
#86	DeepSeek V4 Pro none	DeepSeek	5.0	6.9	$0.096	0/1	2.05s
合計テスト数 1 誤答テスト数 1 合計コスト $0.096 応答時間（平均） 2.05s
#108	Laguna XS 2.1 medium	Poolside	5.0	6.5	$0.068	0/1	4.15s
合計テスト数 1 誤答テスト数 1 合計コスト $0.068 応答時間（平均） 4.15s
#109	Qwen3.5-27B none	Qwen	5.0	6.5	$0.090	0/1	2.51s
合計テスト数 1 誤答テスト数 1 合計コスト $0.090 応答時間（平均） 2.51s

汎用知能ランキング

モデルを絞り込む

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル

汎用知能 ランキング

モデルを絞り込む

汎用知能 スコア 上位モデル

汎用知能 スコア vs 合計コスト

応答時間（平均） 上位モデル

汎用知能ランキング

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル