Inception: Mercury 2 vs Qwen: Qwen3.7 Plus

Qwen3.7 Plus average score में आगे है: 7.2 vs 7.0. Mercury 2 (medium) की benchmark लागत कम है: $0.093 vs $0.106. Mercury 2 (medium) तेज है: 2.72s vs 12.09s, pass rates 51.5% vs 50.0%.

अनुशंसित मॉडलMercury 2 (medium)Its score stays close to the best score here (7.0 vs 7.2), while responding about 4.4x faster than Qwen3.7 Plus.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-07-18

मेट्रिक	Mercury 2 Mercury 2 medium रिलीज़: 2026-02-24	Qwen3.7 Plus Qwen3.7 Plus none रिलीज़: 2026-06-03

मेट्रिक	Mercury 2 Mercury 2 medium रिलीज़: 2026-02-24	Qwen3.7 Plus Qwen3.7 Plus none रिलीज़: 2026-06-03
स्कोर	7.0	7.2
रैंक	#77	#70
विश्वसनीयता	10.0	10.0
संगति	8.8	10.0
सही परीक्षण
प्रति प्रयास पास दर	51.5%	50.0%
अस्थिर टेस्ट	3	0
कुल रन	66	66
प्रति परिणाम लागत	0.928	1.014
कुल लागत	$0.093	$0.106
इनपुट कीमत	$0.250 / 1M	$0.320 / 1M
आउटपुट कीमत	$0.750 / 1M	$1.280 / 1M
कुल इनपुट टोकन	109,572	98,824
आउटपुट टोकन	10,313	58,097
रीजनिंग टोकन	76,806	0
प्रतिक्रिया समय (औसत)	2.72s	12.09s
प्रतिक्रिया समय (अधिकतम)	14.63s	206.03s
प्रतिक्रिया समय (कुल)	57.12s	265.89s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#77 Mercury 2

medium

लागत: $0.002
समय: 2.1s
टोकन: 1,702 tok

#70 Qwen3.7 Plus

none

लागत: $0.019
समय: 213.5s
टोकन: 11,960 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

श्रेणी:

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609
Qwen3.7 Plus	6.5	10.0	50.0%	0		1.38s	696	349	0

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	8.2	7.7	77.8%	1		2.04s	7,065	296	11,328
Qwen3.7 Plus	5.5	10.0	33.3%	0		2.15s	7,911	639	0

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	6.7	9.1	50.0%	0		7.84s	87,365	6,533	20,474
Qwen3.7 Plus	10.0	10.0	100.0%	0		117.70s	71,266	56,024	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656
Qwen3.7 Plus	10.0	10.0	100.0%	0		1.43s	7,794	243	0

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754
Qwen3.7 Plus	3.0	10.0	0.0%	0		868ms	789	18	0

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542
Qwen3.7 Plus	5.3	10.0	0.0%	0		1.33s	522	78	0

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958
Qwen3.7 Plus	6.3	10.0	50.0%	0		929ms	711	72	0

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781
Qwen3.7 Plus	7.7	10.0	66.7%	0		1.71s	714	443	0

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956
Qwen3.7 Plus	10.0	10.0	100.0%	0		3.54s	8,211	222	0

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748
Qwen3.7 Plus	3.0	10.0	0.0%	0		1.21s	210	9	0

त्वरित तुलना

तुलना जोड़ी बदलें

Gemini 3.5 FlashnonevsMercury 2medium Qwen3.7 PlusnonevsGrok 4.3medium Qwen3.7 PlusnonevsGLM 5.1medium Qwen3.7 PlusnonevsGrok 4.20medium KAT-Coder-Pro V2.5highvsQwen3.7 Plusnone Kimi K2.6mediumvsQwen3.7 Plusnone DeepSeek V4 PrononevsMercury 2medium Qwen3.7 PlusnonevsStep 3.7 Flashlow Mercury 2mediumvsGPT-5.6 Solnone Mercury 2mediumvsStep 3.7 Flashhigh Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitemediumvsQwen3.7 Plusnone