AI BENCHY Compare

OpenAI: GPT-5.5 vs xAI: Grok 4.20

सारांश

GPT-5.5 vs Grok 4.20 benchmark तुलना: GPT-5.5 average score मध्ये पुढे आहे: 9.3 vs 7.3. Grok 4.20 चा benchmark खर्च कमी आहे: $0.609 vs $0.907. GPT-5.5 वेगवान आहे: 9.76s vs 27.68s, pass rates 85.7% vs 63.5%.

शिफारस केलेले मॉडेल: GPT-5.5 - It has the best score here (9.3), while responding about 2.8x faster than Grok 4.20.

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-06-18

मेट्रिक	GPT-5.5 GPT-5.5 low प्रकाशन: 2026-04-24	Grok 4.20 Grok 4.20 medium प्रकाशन: 2026-03-31

मेट्रिक	GPT-5.5 GPT-5.5 low प्रकाशन: 2026-04-24	Grok 4.20 Grok 4.20 medium प्रकाशन: 2026-03-31
स्कोअर	9.3	7.3
क्रमांक	#4	#53
विश्वसनीयता	10.0	10.0
सुसंगतता	10.0	8.8
बरोबर चाचण्या
प्रति प्रयत्न पास दर	85.7%	63.5%
अस्थिर चाचण्या	0	3
एकूण रन	63	63
प्रति निकाल खर्च	5.035	8.309
एकूण खर्च	$0.907	$0.609
इनपुट किंमत	$5.000 / 1M	$1.250 / 1M
आउटपुट किंमत	$30.000 / 1M	$2.500 / 1M
एकूण इनपुट टोकन्स	34,209	44,433
आउटपुट टोकन्स	2,046	1,819
रिझनिंग टोकन्स	22,460	219,524
प्रतिसाद वेळ (सरासरी)	9.76s	27.68s
प्रतिसाद वेळ (कमाल)	56.19s	199.66s
प्रतिसाद वेळ (एकूण)	204.92s	581.26s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

खर्च: $0.068
वेळ: 37.0s
टोकन्स: 2,339 tok

#53 xAI: Grok 4.20

medium

खर्च: $0.041
वेळ: 110.3s
टोकन्स: 16,336 tok

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312

कोडिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150

संयुक्त	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556

डेटा पार्सिंग आणि निष्कर्षण	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333

डोमेन-विशिष्ट	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339

Samanya Buddhimatta	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440

सूचनांचे पालन	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419

कोडी सोडवणे	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913

टूल कॉलिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620

सामान्य ज्ञान	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442

झटपट तुलना

तुलना जोडी बदला

Gemini 3 Flash PreviewlowvsGrok 4.20medium GPT-5.5lowvsQwen3.7 Maxmedium Claude Sonnet 4.6nonevsGrok 4.20medium Claude Opus 4.8nonevsGrok 4.20medium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low GPT-5.3 ChatnonevsGrok 4.20medium DeepSeek V4 PrononevsGrok 4.20medium Qwen3.7 PlusnonevsGrok 4.20medium Gemini 3.5 FlashmediumvsGPT-5.5low Grok 4.20mediumvsGLM 5.2none Step 3.7 FlashhighvsGrok 4.20medium