AI BENCHY तुलना

Anthropic: Claude Sonnet 5 vs OpenAI: GPT-5.5

सारांश

Claude Sonnet 5 vs GPT-5.5 benchmark तुलना: GPT-5.5 average score में आगे है: 9.3 vs 7.9. Claude Sonnet 5 की benchmark लागत कम है: $0.550 vs $0.907. GPT-5.5 तेज है: 9.76s vs 9.94s, pass rates 79.4% vs 85.7%.

अनुशंसित मॉडल: GPT-5.5 - It has the strongest score in this comparison (9.3) and the best overall balance of cost and response time across all 2 models.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-30

मेट्रिक	Claude Sonnet 5 Claude Sonnet 5 medium रिलीज़: 2026-06-30	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24

मेट्रिक	Claude Sonnet 5 Claude Sonnet 5 medium रिलीज़: 2026-06-30	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24
स्कोर	7.9	9.3
रैंक	#30	#4
विश्वसनीयता	10.0	10.0
संगति	9.0	10.0
सही परीक्षण
प्रति प्रयास पास दर	79.4%	85.7%
अस्थिर टेस्ट	3	0
कुल रन	63	63
प्रति परिणाम लागत	3.662	5.035
कुल लागत	$0.550	$0.907
इनपुट कीमत	$2.000 / 1M	$5.000 / 1M
आउटपुट कीमत	$10.000 / 1M	$30.000 / 1M
कुल इनपुट टोकन	67,416	34,209
आउटपुट टोकन	34,012	2,046
रीजनिंग टोकन	7,673	22,460
प्रतिक्रिया समय (औसत)	9.94s	9.76s
प्रतिक्रिया समय (अधिकतम)	56.94s	56.19s
प्रतिक्रिया समय (कुल)	208.71s	204.92s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 Claude Sonnet 5

medium

लागत: $0.007
समय: 6.4s
टोकन: 832 tok

#4 GPT-5.5

low

लागत: $0.068
समय: 37.0s
टोकन: 2,339 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Sonnet 5	10.0	10.0	100.0%	0		3.80s	834	1,220	446
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Sonnet 5	9.0	7.9	88.9%	1		17.28s	10,590	13,153	2,379
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Sonnet 5	4.5	2.1	66.7%	1		37.01s	29,394	4,848	2,170
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Sonnet 5	10.0	10.0	100.0%	0		3.16s	10,503	312	0
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Sonnet 5	7.7	10.0	66.7%	0		20.38s	975	12,140	1,994
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Sonnet 5	4.8	3.2	33.3%	1		4.32s	708	264	0
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Sonnet 5	9.9	10.0	100.0%	0		3.10s	909	318	269
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Sonnet 5	7.7	10.0	66.7%	0		2.98s	894	407	121
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Sonnet 5	10.0	10.0	100.0%	0		10.70s	12,351	433	90
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Sonnet 5	3.0	10.0	0.0%	0		7.06s	258	917	204
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840

त्वरित तुलना

तुलना जोड़ी बदलें

GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Claude Sonnet 5mediumvsStep 3.7 Flashlow Gemini 3.5 FlashmediumvsGPT-5.5low Claude Sonnet 5mediumvsDeepSeek V4 Prohigh Gemini 3 Flash PreviewmediumvsGPT-5.5low Claude Sonnet 5mediumvsGPT-5.3 Chatnone Claude Sonnet 5mediumvsDeepSeek V4 Flashhigh GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Sonnet 5mediumvsGemini 3 Flash Previewlow Claude Opus 4.8mediumvsGPT-5.5low