AI BENCHY 分类失败
常识问答:无答案
常识问答
无答案
看看哪些 AI 模型在 常识问答 上最容易遇到 无答案,更快找出薄弱点。 排序方式: 响应时间(平均) ↑.
| 排名 | 模型 | 公司 | 无答案 次数 | 分类得分 | 测试正确 | 响应时间(平均) |
|---|---|---|---|---|---|---|
| #68 | Claude Opus 4.8 none | Anthropic | 1 | 3.0 | 0/1 | 3.41s |
| #10 | Claude Opus 4.8 medium | Anthropic | 1 | 3.0 | 0/1 | 6.14s |
| #67 | MiniMax M3 medium | Minimax | 1 | 3.0 | 0/1 | 100.8s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 3.0 | 0/1 | 114.0s |
| #57 | Step 3.7 Flash low | Stepfun | 1 | 3.0 | 0/1 | 124.8s |
| #71 | Step 3.7 Flash high | Stepfun | 1 | 3.0 | 0/1 | 149.3s |