比较图表

语言:

❤️ Made by XCS

#40

Mercury 2

Inception · 发布日期: 2026-02-24 · inception/mercury-2::medium

平均分

48

每个结果成本

0.726

一致性

83

总成本

$0.044

测试正确

6

只有当某个测试的所有运行都通过时，才计为完全通过。

错误测试数

9

尝试通过率: 51.1%

不稳定测试

3

响应时间：平均 2.47s · 总计 34.56s · 最大 14.63s

答案错误: 5 未遵循指令: 3 API 错误: 1

按分数排名的模型

先选择第一个模型，再点击第二个模型打开并排页面。

#34 GPT-5 Nano 54

#35 gpt-oss-120b 51

#36 Gemini 2.5 Flash 51

#37 Qwen3.5-27B 49

#38 DeepSeek V3.2 49

#39 Qwen3.5-122B-A10B 49

#40 Mercury 2 48

#41 Qwen3.5-Flash 47

#42 MiniMax M2.5 46

#43 Qwen3.5-35B-A3B 45

#44 GPT-5.4 45

#45 Trinity Large Preview (free) 41

#46 GPT-4o-mini 41

快速对比

Mercury 2mediumvsQwen3.5-122B-A10Bnone Mercury 2mediumvsQwen3.5-Flashnone Mercury 2mediumvsDeepSeek V3.2none Mercury 2mediumvsMiniMax M2.5medium Mercury 2mediumvsQwen3.5-27Bnone Mercury 2mediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGemini 3 Flash Previewmedium Mercury 2mediumvsGemini 3.1 Pro Previewmedium Mercury 2mediumvsStep 3.5 Flashmedium免费可用

类别细分

类别	平均分	一致性	测试正确
Anti-AI Tricks	73	98	2/3
Combined	100	100	1/1
Data parsing and extraction	55	59	1/2
Domain specific	100	72	0/3
Instructions following	55	100	1/2
Puzzle Solving	17	75	0/3
Tool Calling	100	100	1/1