通用智能模型排名

看看哪些 AI 模型在通用智能上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↑.

显示的模型数

通用智能得分平均值

6.1

最佳模型

Hy3 preview 3.0

失败原因

失败原因为未遵循指令78 失败原因为答案错误62 失败原因为 API 错误12 失败原因为超时4

216/216

排名	模型	公司	通用智能得分	分数	总成本	测试正确	响应时间（平均）
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	4.8	6.1	$0.122	0/1	1.41s
总测试数 1 错误测试数 1 总成本 $0.122 响应时间（平均） 1.41s
#184	Ling-2.6-flash none	Inclusionai	4.0	4.9	$0.002	0/1	1.45s
总测试数 1 错误测试数 1 总成本 $0.002 响应时间（平均） 1.45s
#87	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	0/1	1.52s
总测试数 1 错误测试数 1 总成本 $0.524 响应时间（平均） 1.52s
#110	Gemini 3.1 Flash Lite Preview low	Google	4.0	6.5	$0.646	0/1	1.54s
总测试数 1 错误测试数 1 总成本 $0.646 响应时间（平均） 1.54s
#144	Kimi K2.6 none	Moonshot AI	5.4	5.8	$0.184	0/1	1.55s
总测试数 1 错误测试数 1 总成本 $0.184 响应时间（平均） 1.55s
#182	GLM 4.7 Flash none	Z.ai	4.0	4.9	$0.016	0/1	1.59s
总测试数 1 错误测试数 1 总成本 $0.016 响应时间（平均） 1.59s
#103	Qwen3.6 Max Preview none	Qwen	4.3	6.6	$0.231	0/1	1.62s
总测试数 1 错误测试数 1 总成本 $0.231 响应时间（平均） 1.62s
#206	MiMo-V2-Flash none	Xiaomi	4.6	4.0	$0.025	0/1	1.67s
总测试数 1 错误测试数 1 总成本 $0.025 响应时间（平均） 1.67s
#95	Gemini 3.5 Flash-Lite low	Google	6.1	6.7	$0.145	0/1	1.71s
总测试数 1 错误测试数 1 总成本 $0.145 响应时间（平均） 1.71s
#145	GPT-5.4 none	OpenAI	4.4	5.8	$0.397	0/1	1.78s
总测试数 1 错误测试数 1 总成本 $0.397 响应时间（平均） 1.78s
#142	GPT-5.4 Mini none	OpenAI	4.8	5.9	$0.095	0/1	1.82s
总测试数 1 错误测试数 1 总成本 $0.095 响应时间（平均） 1.82s
#58	GPT-5.3 Chat none	OpenAI	4.6	7.5	$0.571	0/1	1.99s
总测试数 1 错误测试数 1 总成本 $0.571 响应时间（平均） 1.99s
#173	Mistral Small 4 medium	Mistral	4.8	5.1	$0.096	0/1	2.05s
总测试数 1 错误测试数 1 总成本 $0.096 响应时间（平均） 2.05s
#86	DeepSeek V4 Pro none	DeepSeek	5.0	6.9	$0.096	0/1	2.05s
总测试数 1 错误测试数 1 总成本 $0.096 响应时间（平均） 2.05s
#121	Gemma 4 31B none	Google	10.0	6.2	$0.021	1/1	2.09s
总测试数 1 错误测试数 0 总成本 $0.021 响应时间（平均） 2.09s

通用智能排名

筛选模型

按通用智能得分排名的顶级模型

通用智能得分 vs 总成本

按响应时间（平均）排名的顶级模型

通用智能 排名

筛选模型

按 通用智能 得分 排名的顶级模型

通用智能 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

通用智能排名

按通用智能得分排名的顶级模型

通用智能得分 vs 总成本

按响应时间（平均）排名的顶级模型