综合模型排名

看看哪些 AI 模型在综合上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 测试正确 ↓.

显示的模型数

综合得分平均值

5.6

最佳模型

Gemini 3.6 Flash 10.0

失败原因

失败原因为无效工具调用91 失败原因为答案错误69 失败原因为无答案32 失败原因为 API 错误26 失败原因为超时5 失败原因为未遵循指令1 失败原因为额外格式1

216/216

排名	模型	公司	综合得分	分数	总成本	测试正确	响应时间（平均）
#52	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	2/2	65.1s
总测试数 2 错误测试数 0 总成本 $1.097 响应时间（平均） 65.1s
#53	GLM 5 Turbo medium	Z.ai	5.0	7.6	$0.323	1/1	13.9s
总测试数 1 错误测试数 0 总成本 $0.323 响应时间（平均） 13.9s
#54	GPT-5.6 Luna medium	OpenAI	10.0	7.6	$0.352	2/2	14.6s
总测试数 2 错误测试数 0 总成本 $0.352 响应时间（平均） 14.6s
#57	GPT-5.4 Nano medium	OpenAI	9.9	7.5	$0.138	2/2	32.2s
总测试数 2 错误测试数 0 总成本 $0.138 响应时间（平均） 32.2s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	2/2	15.1s
总测试数 2 错误测试数 0 总成本 $0.571 响应时间（平均） 15.1s
#67	Claude Sonnet 4.6 none	Anthropic	9.8	7.3	$0.661	2/2	37.5s
总测试数 2 错误测试数 0 总成本 $0.661 响应时间（平均） 37.5s
#70	Claude Opus 4.8 none	Anthropic	9.8	7.3	$1.166	2/2	26.4s
总测试数 2 错误测试数 0 总成本 $1.166 响应时间（平均） 26.4s
#75	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	2/2	117.7s
总测试数 2 错误测试数 0 总成本 $0.106 响应时间（平均） 117.7s
#78	GLM 5.1 medium	Z.ai	9.8	7.1	$0.535	2/2	175.9s
总测试数 2 错误测试数 0 总成本 $0.535 响应时间（平均） 175.9s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	2/2	130.2s
总测试数 2 错误测试数 0 总成本 $0.391 响应时间（平均） 130.2s
#99	Claude Opus 4.7 none	Anthropic	4.8	6.6	$0.505	1/1	18.3s
总测试数 1 错误测试数 0 总成本 $0.505 响应时间（平均） 18.3s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	2/2	167.1s
总测试数 2 错误测试数 0 总成本 $0.469 响应时间（平均） 167.1s
#106	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
总测试数 1 错误测试数 0 总成本 $0.018 响应时间（平均） 46.0s
#119	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
总测试数 1 错误测试数 0 总成本 $0.043 响应时间（平均） 75.7s
#137	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
总测试数 1 错误测试数 0 总成本 $0.750 响应时间（平均） 20.9s

综合排名

筛选模型

按综合得分排名的顶级模型

综合得分 vs 总成本

按响应时间（平均）排名的顶级模型

综合 排名

筛选模型

按 综合 得分 排名的顶级模型

综合 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

综合排名

按综合得分排名的顶级模型

综合得分 vs 总成本

按响应时间（平均）排名的顶级模型