编程模型排名

AI BENCHY 分类

看看哪些 AI 模型在编程上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↓.

显示的模型数

编程得分平均值

5.7

最佳模型

North Mini Code 4.5

失败原因

失败原因为答案错误230 失败原因为 API 错误43 失败原因为超时25 失败原因为无答案18 失败原因为未遵循指令16 失败原因为额外格式12

189/189

排名	模型	公司	编程得分	分数	总成本	测试正确	响应时间（平均）
#54	Grok Build 0.1 medium	X AI	5.7	7.6	$0.927	1/3	108.5s
总测试数 3 错误测试数 2 总成本 $0.927 响应时间（平均） 108.5s
#147	MiniMax M2.7 medium	Minimax	5.7	5.2	$0.100	1/3	101.9s
总测试数 3 错误测试数 2 总成本 $0.100 响应时间（平均） 101.9s
#185	Qwen3.5-9B medium	Qwen	2.9	3.8	$0.036	0/3	100.9s
总测试数 3 错误测试数 3 总成本 $0.036 响应时间（平均） 100.9s
#88	Hy3 preview high	Tencent	5.3	6.8	$0.048	1/3	99.8s
总测试数 3 错误测试数 2 总成本 $0.048 响应时间（平均） 99.8s
#90	MiMo-V2.5 medium	Xiaomi	6.2	6.7	$0.061	1/3	97.1s
总测试数 3 错误测试数 2 总成本 $0.061 响应时间（平均） 97.1s
#91	Mimo V2 PRO medium	Xiaomi	6.0	6.7	$0.333	1/3	94.2s
总测试数 3 错误测试数 2 总成本 $0.333 响应时间（平均） 94.2s
#64	MiMo-V2.5-Pro medium	Xiaomi	6.2	7.4	$0.106	1/3	92.1s
总测试数 3 错误测试数 2 总成本 $0.106 响应时间（平均） 92.1s
#2	Gemini 3 Flash Preview medium	Google	8.6	9.6	$0.667	2/3	84.4s
总测试数 3 错误测试数 1 总成本 $0.667 响应时间（平均） 84.4s
#128	Kimi K2.6 none	Moonshot AI	5.5	5.8	$0.078	1/3	82.6s
总测试数 3 错误测试数 2 总成本 $0.078 响应时间（平均） 82.6s
#160	Cobuddy medium	Baidu	3.7	4.9	$0.000	0/3	79.2s
总测试数 3 错误测试数 3 总成本 $0.000 响应时间（平均） 79.2s
#18	GLM 5 medium	Z.ai	10.0	8.6	$0.228	3/3	74.3s
总测试数 3 错误测试数 0 总成本 $0.228 响应时间（平均） 74.3s
#32	GLM 5.2 high	Z.ai	6.4	8.0	$0.554	1/3	73.0s
总测试数 3 错误测试数 2 总成本 $0.554 响应时间（平均） 73.0s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
总测试数 3 错误测试数 2 总成本 $0.036 响应时间（平均） 70.3s
#69	GLM 5V Turbo medium	Z.ai	6.0	7.3	$0.457	1/3	63.4s
总测试数 3 错误测试数 2 总成本 $0.457 响应时间（平均） 63.4s
#12	GPT-5.5 medium	OpenAI	8.8	9.0	$3.679	2/3	59.8s
总测试数 3 错误测试数 1 总成本 $3.679 响应时间（平均） 59.8s

编程排名

筛选模型

按编程得分排名的顶级模型

编程得分 vs 总成本

按响应时间（平均）排名的顶级模型

编程 排名

筛选模型

按 编程 得分 排名的顶级模型

编程 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

编程排名

按编程得分排名的顶级模型

编程得分 vs 总成本

按响应时间（平均）排名的顶级模型