AI BENCHY तुलना

Anthropic: Claude Opus 4.8 vs Qwen: Qwen3.7 Plus

सारांश

Claude Opus 4.8 vs Qwen3.7 Plus benchmark तुलना: Qwen3.7 Plus average score में आगे है: 8.2 vs 7.2. Qwen3.7 Plus की benchmark लागत कम है: $0.177 vs $0.539. Claude Opus 4.8 तेज है: 3.47s vs 38.95s, pass rates 61.9% vs 77.8%.

अनुशंसित मॉडल: Qwen3.7 Plus - It has the best score here (8.2), while costing about 3.0x less than Claude Opus 4.8.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	Qwen3.7 Plus Qwen3.7 Plus medium रिलीज़: 2026-06-03

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	Qwen3.7 Plus Qwen3.7 Plus medium रिलीज़: 2026-06-03
स्कोर	7.2	8.2
रैंक	#57	#25
विश्वसनीयता	10.0	10.0
संगति	9.2	9.1
सही परीक्षण
प्रति प्रयास पास दर	61.9%	77.8%
अस्थिर टेस्ट	2	2
कुल रन	63	63
प्रति परिणाम लागत	4.485	1.474
कुल लागत	$0.539	$0.177
इनपुट कीमत	$5.000 / 1M	$0.320 / 1M
आउटपुट कीमत	$25.000 / 1M	$1.280 / 1M
कुल इनपुट टोकन	67,104	40,939
आउटपुट टोकन	8,107	2,125
रीजनिंग टोकन	0	125,754
प्रतिक्रिया समय (औसत)	3.47s	38.95s
प्रतिक्रिया समय (अधिकतम)	17.73s	178.04s
प्रतिक्रिया समय (कुल)	72.90s	817.85s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#57 Claude Opus 4.8

none

लागत: $0.053
समय: 22.0s
टोकन: 2,253 tok

#25 Qwen3.7 Plus

medium

लागत: $0.018
समय: 193.2s
टोकन: 10,821 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		8.58s	672	195	5,065

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Qwen3.7 Plus	6.1	6.6	55.6%	1		108.60s	6,472	414	43,576

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		65.24s	14,934	366	10,132

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		21.75s	7,782	270	6,713

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	975	61	0
Qwen3.7 Plus	3.6	7.2	22.2%	1		45.35s	771	57	27,073

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		25.48s	516	123	3,998

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.13s	699	102	5,013

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.38s	696	280	7,312

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		15.02s	8,193	292	1,831

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Qwen3.7 Plus	3.0	10.0	0.0%	0		91.07s	204	26	15,041

त्वरित तुलना

तुलना जोड़ी बदलें