通用智能模型排名

看看哪些 AI 模型在通用智能上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↑.

显示的模型数

通用智能得分平均值

6.1

最佳模型

Hy3 preview 3.0

失败原因

失败原因为未遵循指令78 失败原因为答案错误59 失败原因为 API 错误12 失败原因为超时4

210/210

排名	模型	公司	通用智能得分	分数	总成本	测试正确	响应时间（平均）
#189	Mercury 2 none	Inception	4.8	4.6	$0.030	0/1	628ms
总测试数 1 错误测试数 1 总成本 $0.030 响应时间（平均） 628ms
#197	Grok 4.20 none	X AI	4.8	4.1	$0.057	0/1	659ms
总测试数 1 错误测试数 1 总成本 $0.057 响应时间（平均） 659ms
#165	Mistral Small 4 none	Mistral	4.0	5.1	$0.022	0/1	729ms
总测试数 1 错误测试数 1 总成本 $0.022 响应时间（平均） 729ms
#106	Gemini 3.1 Flash Lite Preview none	Google	4.0	6.4	$0.052	0/1	741ms
总测试数 1 错误测试数 1 总成本 $0.052 响应时间（平均） 741ms
#151	GLM 5.1 none	Z.ai	5.0	5.5	$0.164	0/1	790ms
总测试数 1 错误测试数 1 总成本 $0.164 响应时间（平均） 790ms
#120	Gemini 3.1 Flash Lite minimal	Google	4.0	6.1	$0.047	0/1	791ms
总测试数 1 错误测试数 1 总成本 $0.047 响应时间（平均） 791ms
#125	Qwen3.5-Flash none	Qwen	10.0	6.1	$0.073	1/1	803ms
总测试数 1 错误测试数 0 总成本 $0.073 响应时间（平均） 803ms
#78	Mercury 2 medium	Inception	4.8	7.0	$0.093	0/1	821ms
总测试数 1 错误测试数 1 总成本 $0.093 响应时间（平均） 821ms
#193	Elephant Alpha none	Openrouter	4.0	4.3	$0.000	0/1	854ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 854ms
#164	Inkling none	Thinkingmachines	5.0	5.2	$0.147	0/1	859ms
总测试数 1 错误测试数 1 总成本 $0.147 响应时间（平均） 859ms
#183	Trinity Large Preview none	Arcee AI	4.5	4.8	$0.008	0/1	873ms
总测试数 1 错误测试数 1 总成本 $0.008 响应时间（平均） 873ms
#174	GPT-4o-mini none	OpenAI	4.0	5.0	$0.010	0/1	909ms
总测试数 1 错误测试数 1 总成本 $0.010 响应时间（平均） 909ms
#195	Elephant Alpha medium	Openrouter	4.3	4.3	$0.000	0/1	920ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 920ms
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	1/1	922ms
总测试数 1 错误测试数 0 总成本 $0.300 响应时间（平均） 922ms
#124	Qwen3.6 Flash none	Qwen	10.0	6.1	$0.062	1/1	947ms
总测试数 1 错误测试数 0 总成本 $0.062 响应时间（平均） 947ms

通用智能排名

筛选模型

按通用智能得分排名的顶级模型

通用智能得分 vs 总成本

按响应时间（平均）排名的顶级模型

通用智能 排名

筛选模型

按 通用智能 得分 排名的顶级模型

通用智能 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

通用智能排名

按通用智能得分排名的顶级模型

通用智能得分 vs 总成本

按响应时间（平均）排名的顶级模型