AI BENCHY Compare

OpenAI: GPT-5.5 vs Grok 4.20 Multi Agent Beta

خلاصہ

GPT-5.5 vs Grok 4.20 Multi Agent Beta benchmark موازنہ: GPT-5.5 average score میں آگے ہے: 9.3 vs 5.0. GPT-5.5 کی benchmark لاگت کم ہے: $0.907 vs $5.599. Grok 4.20 Multi Agent Beta تیز ہے: 9.69s vs 9.76s، pass rates 85.7% vs 50.8%.

تجویز کردہ ماڈل: GPT-5.5 - It has the best score here (9.3), while costing about 6.2x less than Grok 4.20 Multi Agent Beta.

بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-06-18

میٹرک	GPT-5.5 GPT-5.5 low اجرا: 2026-04-24	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium اجرا: 2026-03-12

میٹرک	GPT-5.5 GPT-5.5 low اجرا: 2026-04-24	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium اجرا: 2026-03-12
اسکور	9.3	5.0
درجہ	#4	#136
اعتماد پذیری	10.0	دستیاب نہیں
تسلسل	10.0	6.7
درست ٹیسٹس
فی کوشش کامیابی کی شرح	85.7%	50.8%
غیر مستحکم ٹیسٹ	0	5
کل رنز	63	52
فی نتیجہ لاگت	5.035	62.923
کل لاگت	$0.907	$5.599
ان پٹ قیمت	$5.000 / 1M	$4.235 / 1M
آؤٹ پٹ قیمت	$30.000 / 1M	$4.235 / 1M
کل ان پٹ ٹوکنز	34,209	721,952
آؤٹ پٹ ٹوکنز	2,046	294,668
ریزننگ ٹوکنز	22,460	305,374
ردِعمل کا وقت (اوسط)	9.76s	9.69s
ردِعمل کا وقت (زیادہ سے زیادہ)	56.19s	35.28s
ردِعمل کا وقت (کل)	204.92s	155.07s

جنریشن شوکیس

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

لاگت: $0.068
وقت: 37.0s
ٹوکنز: 2,339 tok

#136 Grok 4.20 Multi Agent Beta

medium

لاگت: $0.261
وقت: 123.4s
ٹوکنز: 199,344 tok

اسکور کے لحاظ سے سرفہرست ماڈلز

اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط)

اسکور vs ردِعمل کا وقت (اوسط)

کل آؤٹ پٹ ٹوکنز

اسکور vs کل آؤٹ پٹ ٹوکنز

زمرہ وار تفصیل

اینٹی اے آئی چالیں	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2		3.46s	90,925	33,706	33,077

کوڈنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Grok 4.20 Multi Agent Beta	3.3	3.3	33.3%	0		27.11s	13,212	86	13,141

مشترکہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0	0

ڈیٹا پارسنگ اور استخراج	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		5.54s	97,232	25,306	25,051

ڈومین مخصوص	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1		24.67s	328,253	164,609	163,647

عمومی ذہانت	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1		6.40s	41,387	15,848	15,746

ہدایات کی پیروی	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Grok 4.20 Multi Agent Beta	9.8	10.0	100.0%	0		3.52s	43,923	19,752	19,617

پہیلی حل کرنا	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Grok 4.20 Multi Agent Beta	6.7	7.9	55.6%	1		5.19s	107,020	35,361	35,095

ٹول کالنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0	0

معلومات عامہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Grok 4.20 Multi Agent Beta	0.0	0.0	0.0%	0		0ms	0	0	0

فوری موازنہ

موازنہ کی جوڑی تبدیل کریں

GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Gemini 3.5 FlashmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGPT-5.5low GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low Gemini 3.5 FlashhighvsGPT-5.5low Claude Opus 4.7mediumvsGPT-5.5low GPT-5.5lowvsGLM 5.2medium GPT-5.5lowvsGLM 5medium Seed-2.0-LitemediumvsGPT-5.5low