AI BENCHY Compare

Anthropic: Claude Sonnet 5 vs OpenAI: GPT-5.5

सारांश

Claude Sonnet 5 vs GPT-5.5 benchmark तुलना: GPT-5.5 average score मध्ये पुढे आहे: 9.3 vs 7.9. Claude Sonnet 5 चा benchmark खर्च कमी आहे: $0.550 vs $0.907. GPT-5.5 वेगवान आहे: 9.76s vs 9.94s, pass rates 79.4% vs 85.7%.

शिफारस केलेले मॉडेल: GPT-5.5 - It has the strongest score in this comparison (9.3) and the best overall balance of cost and response time across all 2 models.

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-06-30

मेट्रिक	Claude Sonnet 5 Claude Sonnet 5 medium प्रकाशन: 2026-06-30	GPT-5.5 GPT-5.5 low प्रकाशन: 2026-04-24

मेट्रिक	Claude Sonnet 5 Claude Sonnet 5 medium प्रकाशन: 2026-06-30	GPT-5.5 GPT-5.5 low प्रकाशन: 2026-04-24
स्कोअर	7.9	9.3
क्रमांक	#30	#4
विश्वसनीयता	10.0	10.0
सुसंगतता	9.0	10.0
बरोबर चाचण्या
प्रति प्रयत्न पास दर	79.4%	85.7%
अस्थिर चाचण्या	3	0
एकूण रन	63	63
प्रति निकाल खर्च	3.662	5.035
एकूण खर्च	$0.550	$0.907
इनपुट किंमत	$2.000 / 1M	$5.000 / 1M
आउटपुट किंमत	$10.000 / 1M	$30.000 / 1M
एकूण इनपुट टोकन्स	67,416	34,209
आउटपुट टोकन्स	34,012	2,046
रिझनिंग टोकन्स	7,673	22,460
प्रतिसाद वेळ (सरासरी)	9.94s	9.76s
प्रतिसाद वेळ (कमाल)	56.94s	56.19s
प्रतिसाद वेळ (एकूण)	208.71s	204.92s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 Claude Sonnet 5

medium

खर्च: $0.007
वेळ: 6.4s
टोकन्स: 832 tok

#4 GPT-5.5

low

खर्च: $0.068
वेळ: 37.0s
टोकन्स: 2,339 tok

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Sonnet 5	10.0	10.0	100.0%	0		3.80s	834	1,220	446
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020

कोडिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Sonnet 5	9.0	7.9	88.9%	1		17.28s	10,590	13,153	2,379
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402

संयुक्त	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Sonnet 5	4.5	2.1	66.7%	1		37.01s	29,394	4,848	2,170
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717

डेटा पार्सिंग आणि निष्कर्षण	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Sonnet 5	10.0	10.0	100.0%	0		3.16s	10,503	312	0
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157

डोमेन-विशिष्ट	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Sonnet 5	7.7	10.0	66.7%	0		20.38s	975	12,140	1,994
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609

Samanya Buddhimatta	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Sonnet 5	4.8	3.2	33.3%	1		4.32s	708	264	0
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245

सूचनांचे पालन	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Sonnet 5	9.9	10.0	100.0%	0		3.10s	909	318	269
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415

कोडी सोडवणे	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Sonnet 5	7.7	10.0	66.7%	0		2.98s	894	407	121
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954

टूल कॉलिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Sonnet 5	10.0	10.0	100.0%	0		10.70s	12,351	433	90
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101

सामान्य ज्ञान	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Sonnet 5	3.0	10.0	0.0%	0		7.06s	258	917	204
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840

झटपट तुलना

तुलना जोडी बदला

GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Claude Sonnet 5mediumvsStep 3.7 Flashlow Gemini 3.5 FlashmediumvsGPT-5.5low Claude Sonnet 5mediumvsDeepSeek V4 Prohigh Gemini 3 Flash PreviewmediumvsGPT-5.5low Claude Sonnet 5mediumvsGPT-5.3 Chatnone Claude Sonnet 5mediumvsDeepSeek V4 Flashhigh GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Sonnet 5mediumvsGemini 3 Flash Previewlow Claude Opus 4.8mediumvsGPT-5.5low