通用智能模型排名

看看哪些 AI 模型在通用智能上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↓.

显示的模型数

通用智能得分平均值

6.1

最佳模型

Qwen3.5-9B 2.8

失败原因

失败原因为未遵循指令78 失败原因为答案错误59 失败原因为 API 错误12 失败原因为超时4

210/210

排名	模型	公司	通用智能得分	分数	总成本	测试正确	响应时间（平均）
#19	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	1/1	32.2s
总测试数 1 错误测试数 0 总成本 $1.143 响应时间（平均） 32.2s
#119	Qwen3.5-35B-A3B medium	Qwen	2.8	6.2	$0.837	0/1	30.3s
总测试数 1 错误测试数 1 总成本 $0.837 响应时间（平均） 30.3s
#95	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	29.8s
总测试数 1 错误测试数 0 总成本 $0.089 响应时间（平均） 29.8s
#37	Qwen3.6 Plus medium	Qwen	5.1	7.8	$0.405	0/1	27.1s
总测试数 1 错误测试数 1 总成本 $0.405 响应时间（平均） 27.1s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	1/1	25.5s
总测试数 1 错误测试数 0 总成本 $0.267 响应时间（平均） 25.5s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	4.9	7.2	$0.317	0/1	25.3s
总测试数 1 错误测试数 1 总成本 $0.317 响应时间（平均） 25.3s
#45	DeepSeek V4 Flash high	DeepSeek	6.1	7.7	$0.042	0/1	25.2s
总测试数 1 错误测试数 1 总成本 $0.042 响应时间（平均） 25.2s
#137	North Mini Code medium	Cohere	5.1	5.9	$0.000	0/1	25.1s
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 25.1s
#73	Grok 4.3 medium	X AI	5.4	7.1	$0.779	0/1	24.7s
总测试数 1 错误测试数 1 总成本 $0.779 响应时间（平均） 24.7s
#75	Grok 4.20 medium	X AI	3.9	7.1	$0.777	0/1	24.5s
总测试数 1 错误测试数 1 总成本 $0.777 响应时间（平均） 24.5s
#150	DeepSeek V4 Flash none	DeepSeek	4.2	5.6	$0.044	0/1	23.7s
总测试数 1 错误测试数 1 总成本 $0.044 响应时间（平均） 23.7s
#188	Cobuddy medium	Baidu	4.2	4.7	$0.000	0/1	23.2s
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 23.2s
#91	LongCat 2.0 low	Meituan	3.4	6.7	$0.391	0/1	22.5s
总测试数 1 错误测试数 1 总成本 $0.391 响应时间（平均） 22.5s
#130	Step 3.5 Flash medium	Stepfun	5.5	6.0	$0.108	0/1	22.4s
总测试数 1 错误测试数 1 总成本 $0.108 响应时间（平均） 22.4s
#74	GLM 5.1 medium	Z.ai	10.0	7.1	$0.535	1/1	20.9s
总测试数 1 错误测试数 0 总成本 $0.535 响应时间（平均） 20.9s

通用智能排名

筛选模型

按通用智能得分排名的顶级模型

通用智能得分 vs 总成本

按响应时间（平均）排名的顶级模型

通用智能 排名

筛选模型

按 通用智能 得分 排名的顶级模型

通用智能 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

通用智能排名

按通用智能得分排名的顶级模型

通用智能得分 vs 总成本

按响应时间（平均）排名的顶级模型