AI BENCHY तुलना

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.5

सारांश

Claude Opus 4.6 vs GPT-5.5 benchmark तुलना: GPT-5.5 average score में आगे है: 9.3 vs 7.7. GPT-5.5 की benchmark लागत कम है: $0.907 vs $2.053. GPT-5.5 तेज है: 9.76s vs 25.89s, pass rates 61.9% vs 85.7%.

अनुशंसित मॉडल: GPT-5.5 - It has the best score here (9.3), while costing about 2.3x less than Claude Opus 4.6.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-07-02

मेट्रिक	Claude Opus 4.6 Claude Opus 4.6 medium रिलीज़: 2026-02-05	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24

मेट्रिक	Claude Opus 4.6 Claude Opus 4.6 medium रिलीज़: 2026-02-05	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24
स्कोर	7.7	9.3
रैंक	#40	#4
विश्वसनीयता	10.0	10.0
संगति	8.8	10.0
सही परीक्षण
प्रति प्रयास पास दर	61.9%	85.7%
अस्थिर टेस्ट	3	0
कुल रन	63	63
प्रति परिणाम लागत	17.103	5.035
कुल लागत	$2.053	$0.907
इनपुट कीमत	$5.000 / 1M	$5.000 / 1M
आउटपुट कीमत	$25.000 / 1M	$30.000 / 1M
कुल इनपुट टोकन	53,227	34,209
आउटपुट टोकन	47,446	2,046
रीजनिंग टोकन	24,000	22,460
प्रतिक्रिया समय (औसत)	25.89s	9.76s
प्रतिक्रिया समय (अधिकतम)	83.40s	56.19s
प्रतिक्रिया समय (कुल)	362.49s	204.92s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#40 Claude Opus 4.6

medium

अमान्य SVG

लागत: $0.000
समय: 300.0s
टोकन: 0 tok

#4 GPT-5.5

low

लागत: $0.068
समय: 37.0s
टोकन: 2,339 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840

त्वरित तुलना

तुलना जोड़ी बदलें

Claude Opus 4.6mediumvsStep 3.7 Flashlow GPT-5.5lowvsQwen3.7 Maxmedium Claude Opus 4.6mediumvsDeepSeek V4 Prohigh Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Claude Opus 4.6mediumvsGPT-5.3 Chatnone Gemini 3.5 FlashmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGPT-5.5low Claude Opus 4.6mediumvsGemini 3 Flash Previewlow GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low Gemini 3.5 FlashhighvsGPT-5.5low