编程 x 超时排名 | AI BENCHY

AI BENCHY 分类失败

看看哪些 AI 模型在编程上最容易遇到超时，更快找出薄弱点。

显示的模型数

12

失败总数

12

受影响最多的模型

失败原因

答案错误26 超时12 API 错误6 未遵循指令2

分类

领域专项28 编程12 谜题求解6 反AI技巧4 通用智能4 综合2 指令遵循1 数据解析与提取1

排名	模型	公司	超时次数	分类得分	测试正确	响应时间（平均）
#12	Gemma 4 31B medium	Google	1	4.7	0/1	71.0s
#17	Qwen3.5-122B-A10B medium	Qwen	1	4.7	0/1	71.0s
#22	Gemma 4 26B A4B medium	Google	1	2.8	0/1	147.5s
#25	DeepSeek V3.2 medium	DeepSeek	1	4.7	0/1	180.9s
#30	Qwen3.5-Flash medium	Qwen	1	4.7	0/1	45.7s
#31	GLM 5.1 medium	Z.ai	1	4.7	0/1	118.5s
#38	MiMo-V2-Flash medium	Xiaomi	1	4.7	0/1	13.0s
#43	Kimi K2.5 medium	Moonshot AI	1	4.7	0/1	150.8s
#57	Gemma 4 26B A4B none	Google	1	4.7	0/1	7.07s
#67	MiniMax M2.5 medium	Minimax	1	3.0	0/1	0ms
#86	Qwen3 Coder Next medium	Qwen	1	4.7	0/1	1.69s
#87	GLM 4.7 Flash medium	Z.ai	1	3.6	0/1	21.3s

按超时次数排名的顶级模型

超时次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型