通用智能模型排名

看看哪些 AI 模型在通用智能上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↑.

显示的模型数

通用智能得分平均值

6.1

最佳模型

Hy3 preview 3.0

失败原因

失败原因为未遵循指令78 失败原因为答案错误59 失败原因为 API 错误12 失败原因为超时4

210/210

排名	模型	公司	通用智能得分	分数	总成本	测试正确	响应时间（平均）
#135	Hy3 preview high	Tencent	3.0	5.9	$0.048	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.048 响应时间（平均） 0ms
#153	Hy3 preview low	Tencent	3.0	5.5	$0.015	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.015 响应时间（平均） 0ms
#175	Qwen3.6 Plus Preview medium	Qwen	3.0	4.9	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms
#186	Laguna M.1 medium	Poolside	3.0	4.7	$0.033	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.033 响应时间（平均） 0ms
#192	Laguna M.1 none	Poolside	3.0	4.4	$0.009	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.009 响应时间（平均） 0ms
#198	Laguna Xs.2 medium	Poolside	3.0	4.1	$0.015	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.015 响应时间（平均） 0ms
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.004 响应时间（平均） 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms
#210	LFM2-24B-A2B none	Liquid	4.0	2.2	$0.001	0/1	395ms
总测试数 1 错误测试数 1 总成本 $0.001 响应时间（平均） 395ms
#201	Granite 4.1 8B none	IBM Granite	4.0	4.0	$0.007	0/1	499ms
总测试数 1 错误测试数 1 总成本 $0.007 响应时间（平均） 499ms
#160	Laguna XS 2.1 none	Poolside	5.0	5.3	$0.008	0/1	529ms
总测试数 1 错误测试数 1 总成本 $0.008 响应时间（平均） 529ms
#191	Grok 4.20 Beta none	X AI	5.0	4.4	$0.087	0/1	541ms
总测试数 1 错误测试数 1 总成本 $0.087 响应时间（平均） 541ms
#169	Qwen3.5-9B none	Qwen	4.4	5.1	$0.021	0/1	552ms
总测试数 1 错误测试数 1 总成本 $0.021 响应时间（平均） 552ms
#118	Gemini 2.5 Flash none	Google	5.0	6.2	$0.017	0/1	615ms
总测试数 1 错误测试数 1 总成本 $0.017 响应时间（平均） 615ms

通用智能排名

筛选模型

按通用智能得分排名的顶级模型

通用智能得分 vs 总成本

按响应时间（平均）排名的顶级模型

通用智能 排名

筛选模型

按 通用智能 得分 排名的顶级模型

通用智能 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

通用智能排名

按通用智能得分排名的顶级模型

通用智能得分 vs 总成本

按响应时间（平均）排名的顶级模型