AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.5

خلاصہ

Claude Opus 4.6 vs GPT-5.5 benchmark موازنہ: Claude Opus 4.6 average score میں آگے ہے: 7.0 vs 6.4. GPT-5.5 کی benchmark لاگت کم ہے: $0.231 vs $2.053. GPT-5.5 تیز ہے: 1.89s vs 25.89s، pass rates 61.9% vs 54.0%.

تجویز کردہ ماڈل: GPT-5.5 - Its score stays close to the best score here (6.4 vs 7.0), while costing about 8.9x less than Claude Opus 4.6.

بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-06-04

میٹرک	Claude Opus 4.6 Claude Opus 4.6 medium اجرا: 2026-02-05	GPT-5.5 GPT-5.5 none اجرا: 2026-04-24

میٹرک	Claude Opus 4.6 Claude Opus 4.6 medium اجرا: 2026-02-05	GPT-5.5 GPT-5.5 none اجرا: 2026-04-24
اسکور	7.0	6.4
درجہ	#69	#91
اعتماد پذیری	10.0	10.0
تسلسل	8.8	8.8
درست ٹیسٹس
فی کوشش کامیابی کی شرح	61.9%	54.0%
غیر مستحکم ٹیسٹ	3	3
کل رنز	63	63
فی نتیجہ لاگت	17.103	2.302
کل لاگت	$2.053	$0.231
ان پٹ قیمت	$5.000 / 1M	$5.000 / 1M
آؤٹ پٹ قیمت	$25.000 / 1M	$30.000 / 1M
کل ان پٹ ٹوکنز	53,227	34,212
آؤٹ پٹ ٹوکنز	47,446	1,971
ریزننگ ٹوکنز	24,000	0
ردِعمل کا وقت (اوسط)	25.89s	1.89s
ردِعمل کا وقت (زیادہ سے زیادہ)	83.40s	5.56s
ردِعمل کا وقت (کل)	362.49s	39.64s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#69 Claude Opus 4.6

medium

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

#91 GPT-5.5

none

Cost: $0.090
Time: 54.3s
Tokens: 3,063 tok

اسکور کے لحاظ سے سرفہرست ماڈلز

اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط)

اسکور vs ردِعمل کا وقت (اوسط)

کل آؤٹ پٹ ٹوکنز

اسکور vs کل آؤٹ پٹ ٹوکنز

زمرہ وار تفصیل

اینٹی اے آئی چالیں	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
GPT-5.5	6.9	7.9	66.7%	1		1.31s	606	213	0

کوڈنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
GPT-5.5	5.5	10.0	33.3%	0		1.35s	7,305	462	0

مشترکہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
GPT-5.5	3.0	10.0	0.0%	0		5.56s	11,019	300	0

ڈیٹا پارسنگ اور استخراج	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
GPT-5.5	10.0	10.0	100.0%	0		1.18s	7,140	222	0

ڈومین مخصوص	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
GPT-5.5	2.9	7.2	11.1%	1		1.31s	723	52	0

عمومی ذہانت	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
GPT-5.5	10.0	10.0	100.0%	0		3.41s	477	124	0

ہدایات کی پیروی	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
GPT-5.5	6.2	5.8	66.7%	1		1.15s	660	81	0

پہیلی حل کرنا	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
GPT-5.5	7.7	10.0	66.7%	0		1.29s	642	252	0

ٹول کالنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
GPT-5.5	10.0	10.0	100.0%	0		3.90s	5,445	247	0

معلومات عامہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
GPT-5.5	3.0	10.0	0.0%	0		5.01s	195	18	0

فوری موازنہ

موازنہ کی جوڑی تبدیل کریں