总测试数: 4
错误测试数: 0
Score: 10.00
输出令牌: 220
推理令牌: 6,003
| 类别 | 测试 | 错误 | Score | 输出令牌 | 推理令牌 |
|---|---|---|---|---|---|
| Anti-AI Tricks | 2 | 0 | 10.00 | 201 | 585 |
| Domain specific | 1 | 0 | 10.00 | 0 | 4,865 |
| Puzzle Solving | 1 | 0 | 10.00 | 19 | 553 |
Aibenchy
2026-02-16T02:24:03.805Z
| 排名 | 模型名称 | 公司 ⓘ | Score ⓘ | 每个结果成本 ⓘ | 测试正确 ⓘ | ||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| #1 | Z.ai: GLM 5 推理(medium) 发布日期: 发布日期未知 · 总成本: $0.0159816 | Z.ai | 10.00 | 0.3995 | 4/4 | ||||||||||||||||||||||||
| 总测试数: 4 错误测试数: 0 Score: 10.00 输出令牌: 220 推理令牌: 6,003
| |||||||||||||||||||||||||||||
| #2 | StepFun: Step 3.5 Flash 无推理 免费可用 发布日期: 发布日期未知 · 总成本: $0.0000 | StepFun | 8.00 | 0.0000 | 3/4 | ||||||||||||||||||||||||
| 总测试数: 4 错误测试数: 1 Score: 8.00 输出令牌: 225 推理令牌: 4,197
| |||||||||||||||||||||||||||||
| #3 | Z.ai: GLM 5 无推理 发布日期: 发布日期未知 · 总成本: $0.0123402 | Z.ai | 7.75 | 0.4113 | 3/4 | ||||||||||||||||||||||||
| 总测试数: 4 错误测试数: 1 Score: 7.75 输出令牌: 282 推理令牌: 4,697
| |||||||||||||||||||||||||||||
| #4 | MiniMax: MiniMax M2.5 无推理 发布日期: 发布日期未知 · 总成本: $0.0142142 | MiniMax | 7.75 | 0.4738 | 3/4 | ||||||||||||||||||||||||
| 总测试数: 4 错误测试数: 1 Score: 7.75 输出令牌: 101 推理令牌: 15,007
| |||||||||||||||||||||||||||||
| #5 | Z.ai: GLM 4.7 Flash 无推理 发布日期: 发布日期未知 · 总成本: $0.00087212 | Z.ai | 5.50 | 0.0436 | 2/4 | ||||||||||||||||||||||||
| 总测试数: 4 错误测试数: 2 Score: 5.50 输出令牌: 218 推理令牌: 1,932
| |||||||||||||||||||||||||||||
| #6 | Qwen: Qwen3 Coder Next 推理(medium) 发布日期: 发布日期未知 · 总成本: $0.00003684 | Qwen | 3.25 | 0.0037 | 1/4 | ||||||||||||||||||||||||
| 总测试数: 4 错误测试数: 3 Score: 3.25 输出令牌: 64 推理令牌: 0
| |||||||||||||||||||||||||||||
| #7 | Qwen: Qwen3 Coder Next 无推理 发布日期: 发布日期未知 · 总成本: $0.00003894 | Qwen | 3.25 | 0.0039 | 1/4 | ||||||||||||||||||||||||
| 总测试数: 4 错误测试数: 3 Score: 3.25 输出令牌: 71 推理令牌: 0
| |||||||||||||||||||||||||||||
| #8 | Z.ai: GLM 4.7 Flash 推理(medium) 发布日期: 发布日期未知 · 总成本: $0.00733692 | Z.ai | 3.25 | 0.7337 | 1/4 | ||||||||||||||||||||||||
| 总测试数: 4 错误测试数: 3 Score: 3.25 输出令牌: 1,159 推理令牌: 17,192
| |||||||||||||||||||||||||||||
| #9 | MiniMax: MiniMax M2.5 推理(medium) 发布日期: 发布日期未知 · 总成本: $0.0225838 | MiniMax | 3.25 | 2.2584 | 1/4 | ||||||||||||||||||||||||
| 总测试数: 4 错误测试数: 3 Score: 3.25 输出令牌: 46 推理令牌: 22,487
| |||||||||||||||||||||||||||||
| #10 | OpenAI: GPT-4o-mini 无推理 发布日期: 发布日期未知 · 总成本: $0.0000591 | OpenAI | 1.00 | - | 0/4 | ||||||||||||||||||||||||
| 总测试数: 4 错误测试数: 4 Score: 1.00 输出令牌: 38 推理令牌: 0
| |||||||||||||||||||||||||||||
先选择第一个模型,再点击第二个模型打开并排页面。