#44 Mercury 2
medium- 成本
- $0.002
- 时间
- 2.1s
- 令牌
- 1,702 tok
AI BENCHY 对比
摘要
Mercury 2 vs Grok 4.3 benchmark 对比:Grok 4.3 平均分领先,为 7.7 vs 7.5。 Mercury 2 benchmark 成本更低,为 $0.058 vs $0.614。 Mercury 2 更快,为 2.24s vs 47.51s,通过率为 54.0% vs 71.4%。
推荐模型: Mercury 2 - 它的得分接近这里的最高分(7.5 vs 7.7),同时成本比Grok 4.3低约 10.6 倍。
基准结果生成自 AI BENCHY 测试套件,时间:: 2026-06-18
| 指标 | Mercury 2 Mercury 2 medium | Grok 4.3 Grok 4.3 medium |
|---|---|---|
| 分数 | 7.5 | 7.7 |
| 排名 | #44 | #37 |
| 可靠性 | 10.0 | 10.0 |
| 一致性 | 8.8 | 8.5 |
| 测试正确 | ||
| 尝试通过率 | 54.0% | 71.4% |
| 不稳定测试 | 3 | 4 |
| 总运行次数 | 63 | 63 |
| 每个结果成本 | 0.578 | 4.724 |
| 总成本 | $0.058 | $0.614 |
| 输入价格 | $0.250 / 1M | $1.250 / 1M |
| 输出价格 | $0.750 / 1M | $2.500 / 1M |
| 总输入令牌 | 35,116 | 44,472 |
| 输出令牌 | 4,048 | 1,981 |
| 推理令牌 | 61,219 | 221,382 |
| 响应时间(平均) | 2.24s | 47.51s |
| 响应时间(最大) | 14.63s | 216.69s |
| 响应时间(总计) | 44.72s | 997.68s |
生成展示
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
切换对比组合