通用智能模型排名

看看哪些 AI 模型在通用智能上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 测试正确 ↑.

显示的模型数

通用智能得分平均值

6.1

最佳模型

Grok 4.5 4.7

失败原因

失败原因为未遵循指令78 失败原因为答案错误62 失败原因为 API 错误12 失败原因为超时4

216/216

排名	模型	公司	通用智能得分	分数	总成本	测试正确	响应时间（平均）
#148	Qwen3.5-122B-A10B none	Qwen	5.0	5.7	$0.247	0/1	1.12s
总测试数 1 错误测试数 1 总成本 $0.247 响应时间（平均） 1.12s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	0/1	45.7s
总测试数 1 错误测试数 1 总成本 $2.044 响应时间（平均） 45.7s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	5.1	5.6	$0.077	0/1	7.10s
总测试数 1 错误测试数 1 总成本 $0.077 响应时间（平均） 7.10s
#151	GLM 5V Turbo none	Z.ai	4.6	5.6	$0.052	0/1	2.22s
总测试数 1 错误测试数 1 总成本 $0.052 响应时间（平均） 2.22s
#152	Owl Alpha medium	Openrouter	4.3	5.6	$0.000	0/1	58.6s
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 58.6s
#153	Mimo V2 PRO none	Xiaomi	4.3	5.6	$0.045	0/1	2.44s
总测试数 1 错误测试数 1 总成本 $0.045 响应时间（平均） 2.44s
#154	Owl Alpha none	Openrouter	4.3	5.6	$0.000	0/1	4.61s
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 4.61s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	5.0	5.6	$0.048	0/1	9.81s
总测试数 1 错误测试数 1 总成本 $0.048 响应时间（平均） 9.81s
#156	DeepSeek V4 Flash none	DeepSeek	4.2	5.6	$0.042	0/1	23.7s
总测试数 1 错误测试数 1 总成本 $0.042 响应时间（平均） 23.7s
#157	GLM 5.1 none	Z.ai	5.0	5.5	$0.164	0/1	790ms
总测试数 1 错误测试数 1 总成本 $0.164 响应时间（平均） 790ms
#158	Qwen3.6 27B none	Qwen	5.2	5.5	$0.087	0/1	1.07s
总测试数 1 错误测试数 1 总成本 $0.087 响应时间（平均） 1.07s
#159	Hy3 preview low	Tencent	3.0	5.5	$0.015	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.015 响应时间（平均） 0ms
#160	MiMo-V2.5-Pro none	Xiaomi	4.0	5.5	$0.068	0/1	2.58s
总测试数 1 错误测试数 1 总成本 $0.068 响应时间（平均） 2.58s
#162	Gemma 4 26B A4B none	Google	4.0	5.5	$0.015	0/1	3.54s
总测试数 1 错误测试数 1 总成本 $0.015 响应时间（平均） 3.54s
#163	Mimo V2 Omni none	Xiaomi	4.1	5.5	$0.021	0/1	2.33s
总测试数 1 错误测试数 1 总成本 $0.021 响应时间（平均） 2.33s

通用智能排名

筛选模型

按通用智能得分排名的顶级模型

通用智能得分 vs 总成本

按响应时间（平均）排名的顶级模型

通用智能 排名

筛选模型

按 通用智能 得分 排名的顶级模型

通用智能 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

通用智能排名

按通用智能得分排名的顶级模型

通用智能得分 vs 总成本

按响应时间（平均）排名的顶级模型