Anthropic: Claude Opus 4.7 vs OpenAI: GPT-5.5

GPT-5.5 (medium) average score में आगे है: 9.0 vs 8.7. Claude Opus 4.7 (medium) की benchmark लागत कम है: $1.477 vs $4.137. Claude Opus 4.7 (medium) तेज है: 7.61s vs 38.42s, pass rates 83.3% vs 87.9%.

अनुशंसित मॉडलClaude Opus 4.7 (medium)Its score stays close to the best score here (8.7 vs 9.0), while costing about 2.8x less than GPT-5.5 (medium).

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-07-24

मेट्रिक	Claude Opus 4.7 Claude Opus 4.7 medium रिलीज़: 2026-04-16	GPT-5.5 GPT-5.5 medium रिलीज़: 2026-04-24

मेट्रिक	Claude Opus 4.7 Claude Opus 4.7 medium रिलीज़: 2026-04-16	GPT-5.5 GPT-5.5 medium रिलीज़: 2026-04-24
स्कोर	8.7	9.0
रैंक	#18	#13
विश्वसनीयता	10.0	10.0
संगति	9.6	8.9
सही परीक्षण
प्रति प्रयास पास दर	83.3%	87.9%
अस्थिर टेस्ट	1	3
कुल रन	66	66
प्रति परिणाम लागत	8.201	22.980
कुल लागत	$1.477	$4.137
इनपुट कीमत	$5.000 / 1M	$5.000 / 1M
आउटपुट कीमत	$25.000 / 1M	$30.000 / 1M
कुल इनपुट टोकन	145,252	80,659
आउटपुट टोकन	24,948	5,617
रीजनिंग टोकन	5,042	118,819
प्रतिक्रिया समय (औसत)	7.61s	38.42s
प्रतिक्रिया समय (अधिकतम)	65.40s	332.10s
प्रतिक्रिया समय (कुल)	159.91s	845.35s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#18 Claude Opus 4.7

medium

लागत: $0.059
समय: 26.8s
टोकन: 2,475 tok

#13 GPT-5.5

medium

लागत: $0.112
समय: 71.9s
टोकन: 3,807 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

श्रेणी:

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	894	348	0
GPT-5.5	10.0	10.0	100.0%	0		4.66s	606	250	1,335

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.7	7.6	7.2	77.8%	1		12.96s	10,635	7,629	1,114
GPT-5.5	8.8	7.8	88.9%	1		59.77s	7,305	362	24,959

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.7	10.0	10.0	100.0%	0		43.42s	104,347	15,459	3,928
GPT-5.5	10.0	10.0	100.0%	0		33.52s	57,466	3,944	6,735

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	10,533	324	0
GPT-5.5	10.0	10.0	100.0%	0		4.18s	7,140	234	593

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	630	51	0
GPT-5.5	5.3	7.2	44.4%	1		164.14s	723	67	79,625

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	723	256	0
GPT-5.5	10.0	10.0	100.0%	0		4.16s	477	138	223

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	939	114	0
GPT-5.5	10.0	10.0	100.0%	0		3.36s	660	93	538

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.7	10.0	10.0	100.0%	0		2.43s	939	370	0
GPT-5.5	10.0	10.0	100.0%	0		6.76s	642	241	2,225

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	15,339	373	0
GPT-5.5	10.0	10.0	100.0%	0		10.57s	5,445	258	832

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.7	3.0	10.0	0.0%	0		2.25s	273	24	0
GPT-5.5	2.8	1.6	33.3%	1		37.86s	195	30	1,754

त्वरित तुलना

तुलना जोड़ी बदलें

Gemini 3.5 FlashlowvsGPT-5.5medium GPT-5.5mediumvsGrok 4.5high Claude Opus 4.7mediumvsGrok 4.5high Claude Opus 4.7mediumvsGemini 3.5 Flashlow Claude Opus 4.7mediumvsGrok 4.5low Gemini 3.6 FlashlowvsGPT-5.5medium Claude Opus 4.7mediumvsMuse Spark 1.1low Gemini 3.5 FlashhighvsGPT-5.5medium GPT-5.5mediumvsGrok 4.5low Claude Opus 4.7mediumvsGPT-5.5low Claude Opus 4.7mediumvsMuse Spark 1.1high Claude Opus 4.7mediumvsGPT-5.6 Solhigh