AI BENCHY
Advertise here

AI BENCHY 失败分析

答案错误 失败

看看哪些 AI 模型最常遇到 答案错误,让你在选择前先发现稳定性风险。 排序方式: 响应时间(平均) ↓.

显示的模型数

15

失败总数

1204

受影响最多的模型

Kimi K2.5 5
排名 模型 公司 答案错误 次数 分数 测试正确 响应时间(平均)
#154 Qwen3.5-9B none Qwen 14 4.6 4/21 1.89s
#91 GPT-5.5 none OpenAI 11 6.4 10/21 1.89s
#61 Gemini 3.1 Flash Lite low Google 9 7.2 12/21 1.89s
#123 MiMo-V2.5-Pro none Xiaomi 11 5.5 6/21 1.78s
#147 GPT-4o-mini none OpenAI 15 4.8 5/21 1.77s
#115 Qwen3.5-27B none Qwen 12 5.7 7/21 1.68s
#48 Gemini 3 Flash Preview none Google 8 7.4 13/21 1.65s
#157 Grok 4.1 Fast none X AI 13 4.4 3/19 1.62s
#128 Qwen3.6 Flash none Qwen 12 5.4 7/21 1.60s
#32 Gemini 3.5 Flash minimal Google 5 7.7 14/21 1.57s
#148 GPT-5.4 Nano none OpenAI 15 4.7 4/21 1.48s
#125 GPT-5.4 none OpenAI 13 5.5 7/21 1.42s
#87 Gemini 3.1 Flash Lite minimal Google 8 6.4 10/21 1.33s
#34 Qwen3.7 Max none Qwen 7 7.7 14/21 1.30s
#136 Elephant Alpha medium Openrouter 9 5.1 6/21 1.27s

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间(平均) 排名的顶级模型