Anthropic: Claude Opus 4.8 vs Qwen: Qwen3.5-122B-A10B

Claude Opus 4.8 average score में आगे है: 7.3 vs 7.1. Qwen3.5-122B-A10B (medium) की benchmark लागत कम है: $1.046 vs $1.166. Claude Opus 4.8 तेज है: 4.91s vs 64.16s, pass rates 63.6% vs 71.2%.

अनुशंसित मॉडलClaude Opus 4.8It has the best score here (7.3), while responding about 13.1x faster than Qwen3.5-122B-A10B (medium).

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-07-17

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium रिलीज़: 2026-02-24

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium रिलीज़: 2026-02-24
स्कोर	7.3	7.1
रैंक	#63	#69
विश्वसनीयता	10.0	10.0
संगति	9.2	8.5
सही परीक्षण
प्रति प्रयास पास दर	63.6%	71.2%
अस्थिर टेस्ट	2	4
कुल रन	66	66
प्रति परिणाम लागत	8.969	8.509
कुल लागत	$1.166	$1.046
इनपुट कीमत	$5.000 / 1M	$0.260 / 1M
आउटपुट कीमत	$25.000 / 1M	$2.080 / 1M
कुल इनपुट टोकन	149,206	124,771
आउटपुट टोकन	16,797	44,077
रीजनिंग टोकन	0	443,141
प्रतिक्रिया समय (औसत)	4.91s	64.16s
प्रतिक्रिया समय (अधिकतम)	35.03s	519.30s
प्रतिक्रिया समय (कुल)	108.03s	1411.60s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#63 Claude Opus 4.8

none

लागत: $0.053
समय: 22.0s
टोकन: 2,253 tok

#69 Qwen3.5-122B-A10B

medium

लागत: $0.019
समय: 48.7s
टोकन: 6,034 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

श्रेणी:

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	672	269	16,835

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Qwen3.5-122B-A10B	6.0	7.2	55.6%	1		114.48s	7,630	8,057	82,578

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.8	10.0	100.0%	0		26.38s	111,760	11,949	0
Qwen3.5-122B-A10B	6.4	5.8	66.7%	1		313.55s	97,886	18,373	203,450

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	7,782	270	16,558

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	771	15,537	64,889

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	344	66	7,592

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	593	77	7,372

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.89s	696	284	27,575

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	8,193	322	1,226

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		52.87s	204	822	15,066

त्वरित तुलना

तुलना जोड़ी बदलें