AI BENCHY Compare

OpenAI: GPT-5.5 vs Grok 4.20 Multi Agent Beta

सारांश

GPT-5.5 vs Grok 4.20 Multi Agent Beta benchmark तुलना: GPT-5.5 average score मध्ये पुढे आहे: 9.3 vs 5.0. GPT-5.5 चा benchmark खर्च कमी आहे: $0.907 vs $5.599. Grok 4.20 Multi Agent Beta वेगवान आहे: 9.69s vs 9.76s, pass rates 85.7% vs 50.8%.

शिफारस केलेले मॉडेल: GPT-5.5 - It has the best score here (9.3), while costing about 6.2x less than Grok 4.20 Multi Agent Beta.

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-06-18

मेट्रिक	GPT-5.5 GPT-5.5 low प्रकाशन: 2026-04-24	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium प्रकाशन: 2026-03-12

मेट्रिक	GPT-5.5 GPT-5.5 low प्रकाशन: 2026-04-24	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium प्रकाशन: 2026-03-12
स्कोअर	9.3	5.0
क्रमांक	#4	#136
विश्वसनीयता	10.0	लागू नाही
सुसंगतता	10.0	6.7
बरोबर चाचण्या
प्रति प्रयत्न पास दर	85.7%	50.8%
अस्थिर चाचण्या	0	5
एकूण रन	63	52
प्रति निकाल खर्च	5.035	62.923
एकूण खर्च	$0.907	$5.599
इनपुट किंमत	$5.000 / 1M	$4.235 / 1M
आउटपुट किंमत	$30.000 / 1M	$4.235 / 1M
एकूण इनपुट टोकन्स	34,209	721,952
आउटपुट टोकन्स	2,046	294,668
रिझनिंग टोकन्स	22,460	305,374
प्रतिसाद वेळ (सरासरी)	9.76s	9.69s
प्रतिसाद वेळ (कमाल)	56.19s	35.28s
प्रतिसाद वेळ (एकूण)	204.92s	155.07s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

खर्च: $0.068
वेळ: 37.0s
टोकन्स: 2,339 tok

#136 Grok 4.20 Multi Agent Beta

medium

खर्च: $0.261
वेळ: 123.4s
टोकन्स: 199,344 tok

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2		3.46s	90,925	33,706	33,077

कोडिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Grok 4.20 Multi Agent Beta	3.3	3.3	33.3%	0		27.11s	13,212	86	13,141

संयुक्त	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0	0

डेटा पार्सिंग आणि निष्कर्षण	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		5.54s	97,232	25,306	25,051

डोमेन-विशिष्ट	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1		24.67s	328,253	164,609	163,647

Samanya Buddhimatta	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1		6.40s	41,387	15,848	15,746

सूचनांचे पालन	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Grok 4.20 Multi Agent Beta	9.8	10.0	100.0%	0		3.52s	43,923	19,752	19,617

कोडी सोडवणे	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Grok 4.20 Multi Agent Beta	6.7	7.9	55.6%	1		5.19s	107,020	35,361	35,095

टूल कॉलिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0	0

सामान्य ज्ञान	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Grok 4.20 Multi Agent Beta	0.0	0.0	0.0%	0		0ms	0	0	0

झटपट तुलना

तुलना जोडी बदला

GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Gemini 3.5 FlashmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGPT-5.5low GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low Gemini 3.5 FlashhighvsGPT-5.5low Claude Opus 4.7mediumvsGPT-5.5low GPT-5.5lowvsGLM 5.2medium GPT-5.5lowvsGLM 5medium Seed-2.0-LitemediumvsGPT-5.5low