导航
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 对比

Inception: Mercury 2 vs Qwen: Qwen3.6 Max Preview

基准结果生成自 AI BENCHY 测试套件,时间:: 2026-06-04

指标 Mercury 2 Mercury 2 medium 发布日期: 2026-02-24 Qwen3.6 Max Preview Qwen3.6 Max Preview none 发布日期: 2026-04-20
分数 6.6 6.9
排名 #81 #74
可靠性 10.0 10.0
一致性 8.8 9.2
测试正确
尝试通过率 54.0% 58.7%
不稳定测试 3 2
总运行次数 63 63
每个结果成本 0.578 0.824
总成本 $0.058 $0.075
输入价格 $0.250 / 1M $1.040 / 1M
输出价格 $0.750 / 1M $6.240 / 1M
总输入令牌 35,116 42,509
输出令牌 4,048 4,779
推理令牌 61,219 0
响应时间(平均) 2.24s 3.30s
响应时间(最大) 14.63s 20.51s
响应时间(总计) 44.72s 69.40s

按分数排名的模型

分数 vs 总成本

响应时间(平均)

分数 vs 响应时间(平均)

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Mercury 2 6.9 9.9 50.0% 0 1.12s 554 2,546 2,609
Qwen3.6 Max Preview 5.2 7.9 41.7% 1 2.63s 696 513 0
编程 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Mercury 2 8.2 7.7 77.8% 1 2.04s 7,065 296 11,328
Qwen3.6 Max Preview 3.8 7.3 22.2% 1 3.12s 7,913 456 0
综合 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Mercury 2 10.0 10.0 100.0% 0 3.28s 12,909 268 4,887
Qwen3.6 Max Preview 3.0 10.0 0.0% 0 20.51s 14,949 2,842 0
数据解析与提取 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Mercury 2 7.3 5.9 83.3% 1 1.11s 6,234 183 1,656
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 2.87s 7,794 243 0
领域专项 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Mercury 2 2.9 7.2 11.1% 1 6.48s 695 41 30,754
Qwen3.6 Max Preview 7.7 10.0 66.7% 0 1.22s 789 18 0
通用智能 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Mercury 2 4.8 10.0 0.0% 0 821ms 456 137 542
Qwen3.6 Max Preview 4.3 10.0 0.0% 0 1.62s 522 76 0
指令遵循 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Mercury 2 10.0 10.0 100.0% 0 1.07s 340 14 958
Qwen3.6 Max Preview 9.8 10.0 100.0% 0 1.40s 711 69 0
谜题求解 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Mercury 2 5.4 10.0 33.3% 0 949ms 601 361 2,781
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 2.65s 714 321 0
工具调用 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Mercury 2 10.0 10.0 100.0% 0 1.89s 6,080 180 1,956
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 5.27s 8,211 222 0
常识问答 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
Mercury 2 3.0 10.0 0.0% 0 2.58s 182 22 3,748
Qwen3.6 Max Preview 3.0 10.0 0.0% 0 1.97s 210 19 0

快速对比

切换对比组合