#43 MiniMax M3
medium- Cost
- $0.012
- Time
- 154.4s
- Tokens
- 10,018 tok
AI BENCHY 对比
摘要
MiniMax M3 vs Qwen3.7 Plus benchmark 对比:MiniMax M3 平均分领先,为 7.6 vs 7.2。 Qwen3.7 Plus benchmark 成本更低,为 $0.023 vs $0.131。 Qwen3.7 Plus 更快,为 2.85s vs 68.17s,通过率为 65.1% vs 47.6%。
推荐模型: Qwen3.7 Plus - 它的得分接近这里的最高分(7.2 vs 7.6),同时成本比MiniMax M3低约 5.9 倍。
基准结果生成自 AI BENCHY 测试套件,时间:: 2026-06-12
| 指标 | MiniMax M3 MiniMax M3 medium | Qwen3.7 Plus Qwen3.7 Plus none |
|---|---|---|
| 分数 | 7.6 | 7.2 |
| 排名 | #43 | #61 |
| 可靠性 | 9.6 | 10.0 |
| 一致性 | 7.9 | 10.0 |
| 测试正确 | ||
| 尝试通过率 | 65.1% | 47.6% |
| 不稳定测试 | 5 | 0 |
| 总运行次数 | 63 | 63 |
| 每个结果成本 | 1.187 | 0.276 |
| 总成本 | $0.131 | $0.023 |
| 输入价格 | $0.300 / 1M | $0.320 / 1M |
| 输出价格 | $1.200 / 1M | $1.280 / 1M |
| 总输入令牌 | 46,546 | 42,510 |
| 输出令牌 | 49,036 | 6,578 |
| 推理令牌 | 92,543 | 0 |
| 响应时间(平均) | 68.17s | 2.85s |
| 响应时间(最大) | 431.03s | 29.38s |
| 响应时间(总计) | 1363.38s | 59.86s |
Generation showcase
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
| 反AI技巧 | 分数 | 一致性 | 尝试通过率 | 不稳定测试 | 测试正确 | 响应时间(平均) | 输入令牌 | 输出令牌 | 推理令牌 |
|---|---|---|---|---|---|---|---|---|---|
| MiniMax M3 | 5.5 | 3.7 | 66.7% | 3 | 14.95s | 2,526 | 874 | 3,414 | |
| Qwen3.7 Plus | 6.5 | 10.0 | 50.0% | 0 | 1.38s | 696 | 349 | 0 |
| 编程 | 分数 | 一致性 | 尝试通过率 | 不稳定测试 | 测试正确 | 响应时间(平均) | 输入令牌 | 输出令牌 | 推理令牌 |
|---|---|---|---|---|---|---|---|---|---|
| MiniMax M3 | 6.1 | 6.5 | 55.6% | 1 | 144.74s | 5,804 | 6,223 | 32,667 | |
| Qwen3.7 Plus | 5.5 | 10.0 | 33.3% | 0 | 2.15s | 7,911 | 639 | 0 |
| 综合 | 分数 | 一致性 | 尝试通过率 | 不稳定测试 | 测试正确 | 响应时间(平均) | 输入令牌 | 输出令牌 | 推理令牌 |
|---|---|---|---|---|---|---|---|---|---|
| MiniMax M3 | 10.0 | 10.0 | 100.0% | 0 | 65.30s | 14,760 | 1,306 | 6,253 | |
| Qwen3.7 Plus | 10.0 | 10.0 | 100.0% | 0 | 29.38s | 14,952 | 4,505 | 0 |
| 数据解析与提取 | 分数 | 一致性 | 尝试通过率 | 不稳定测试 | 测试正确 | 响应时间(平均) | 输入令牌 | 输出令牌 | 推理令牌 |
|---|---|---|---|---|---|---|---|---|---|
| MiniMax M3 | 10.0 | 10.0 | 100.0% | 0 | 14.92s | 8,088 | 514 | 3,164 | |
| Qwen3.7 Plus | 10.0 | 10.0 | 100.0% | 0 | 1.43s | 7,794 | 243 | 0 |
| 领域专项 | 分数 | 一致性 | 尝试通过率 | 不稳定测试 | 测试正确 | 响应时间(平均) | 输入令牌 | 输出令牌 | 推理令牌 |
|---|---|---|---|---|---|---|---|---|---|
| MiniMax M3 | 5.5 | 9.3 | 33.3% | 0 | 233.13s | 869 | 16,254 | 19,070 | |
| Qwen3.7 Plus | 3.0 | 10.0 | 0.0% | 0 | 868ms | 789 | 18 | 0 |
| 通用智能 | 分数 | 一致性 | 尝试通过率 | 不稳定测试 | 测试正确 | 响应时间(平均) | 输入令牌 | 输出令牌 | 推理令牌 |
|---|---|---|---|---|---|---|---|---|---|
| MiniMax M3 | 5.1 | 3.4 | 33.3% | 1 | 33.25s | 954 | 2,487 | 2,523 | |
| Qwen3.7 Plus | 5.3 | 10.0 | 0.0% | 0 | 1.33s | 522 | 78 | 0 |
| 指令遵循 | 分数 | 一致性 | 尝试通过率 | 不稳定测试 | 测试正确 | 响应时间(平均) | 输入令牌 | 输出令牌 | 推理令牌 |
|---|---|---|---|---|---|---|---|---|---|
| MiniMax M3 | 9.8 | 10.0 | 100.0% | 0 | 6.14s | 1,623 | 103 | 920 | |
| Qwen3.7 Plus | 6.3 | 10.0 | 50.0% | 0 | 929ms | 711 | 72 | 0 |
| 谜题求解 | 分数 | 一致性 | 尝试通过率 | 不稳定测试 | 测试正确 | 响应时间(平均) | 输入令牌 | 输出令牌 | 推理令牌 |
|---|---|---|---|---|---|---|---|---|---|
| MiniMax M3 | 7.9 | 9.9 | 66.7% | 0 | 49.91s | 2,079 | 11,946 | 13,761 | |
| Qwen3.7 Plus | 7.7 | 10.0 | 66.7% | 0 | 1.71s | 714 | 443 | 0 |
| 工具调用 | 分数 | 一致性 | 尝试通过率 | 不稳定测试 | 测试正确 | 响应时间(平均) | 输入令牌 | 输出令牌 | 推理令牌 |
|---|---|---|---|---|---|---|---|---|---|
| MiniMax M3 | 10.0 | 10.0 | 100.0% | 0 | 11.91s | 9,168 | 281 | 555 | |
| Qwen3.7 Plus | 10.0 | 10.0 | 100.0% | 0 | 3.54s | 8,211 | 222 | 0 |
| 常识问答 | 分数 | 一致性 | 尝试通过率 | 不稳定测试 | 测试正确 | 响应时间(平均) | 输入令牌 | 输出令牌 | 推理令牌 |
|---|---|---|---|---|---|---|---|---|---|
| MiniMax M3 | 3.0 | 10.0 | 0.0% | 0 | 100.80s | 675 | 9,048 | 10,216 | |
| Qwen3.7 Plus | 3.0 | 10.0 | 0.0% | 0 | 1.21s | 210 | 9 | 0 |
切换对比组合