导航
AI BENCHY
比较 图表
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 对比

Anthropic: Claude Opus 4.6 vs Inception: Mercury 2

比较:

基准结果生成自 AI BENCHY 测试套件,时间:: 2026-03-05

指标 Anthropic: Claude Opus 4.6 medium 发布日期: 2026-02-05 Inception: Mercury 2 none 发布日期: 2026-02-24
排名 #30 #50
平均分 6.4 3.4
测试正确
一致性 8.9 8.9
每个结果成本 14.411 0.147
总成本 $1.297 $0.006
尝试通过率 64.4% 33.3%
不稳定测试 2 2
common.totalAttempts 45 (15 x 3) 45 (15 x 3)
输出令牌 26,066 1,144
推理令牌 17,071 0
响应时间(平均) 25.08s 594ms
响应时间(最大) 83.40s 1.27s
响应时间(总计) 200.67s 8.91s

按分数排名的模型

响应时间(平均)

分数 vs 总成本

平均分 vs 响应时间(平均)

类别细分

反AI技巧 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Anthropic: Claude Opus 4.6 4.0 4.4 55.6% 2 11.88s 897 1,000
Inception: Mercury 2 10.0 10.0 0.0% 0 466ms 274 0
综合 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
Inception: Mercury 2 10.0 10.0 0.0% 0 606ms 131 0
数据解析与提取 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Anthropic: Claude Opus 4.6 9.9 10.0 100.0% 0 7.37s 691 757
Inception: Mercury 2 5.5 5.9 83.3% 1 667ms 180 0
领域专项 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Anthropic: Claude Opus 4.6 10.0 10.0 0.0% 0 83.40s 14,642 8,687
Inception: Mercury 2 4.0 7.2 44.4% 1 534ms 46 0
指令遵循 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
Inception: Mercury 2 5.5 10.0 50.0% 0 551ms 82 0
Puzzle Solving 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Anthropic: Claude Opus 4.6 7.0 10.0 66.7% 0 4.60s 531 637
Inception: Mercury 2 10.0 10.0 0.0% 0 533ms 234 0
工具调用 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
Inception: Mercury 2 10.0 10.0 100.0% 0 1.27s 197 0

快速对比

切换对比组合