AI BENCHY तुलना

OpenAI: GPT-5.5 vs xAI: Grok 4.20

सारांश

GPT-5.5 vs Grok 4.20 benchmark तुलना: GPT-5.5 average score में आगे है: 9.3 vs 7.3. Grok 4.20 की benchmark लागत कम है: $0.609 vs $0.907. GPT-5.5 तेज है: 9.76s vs 27.68s, pass rates 85.7% vs 63.5%.

अनुशंसित मॉडल: GPT-5.5 - It has the best score here (9.3), while responding about 2.8x faster than Grok 4.20.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24	Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31

मेट्रिक	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24	Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31
स्कोर	9.3	7.3
रैंक	#4	#53
विश्वसनीयता	10.0	10.0
संगति	10.0	8.8
सही परीक्षण
प्रति प्रयास पास दर	85.7%	63.5%
अस्थिर टेस्ट	0	3
कुल रन	63	63
प्रति परिणाम लागत	5.035	8.309
कुल लागत	$0.907	$0.609
इनपुट कीमत	$5.000 / 1M	$1.250 / 1M
आउटपुट कीमत	$30.000 / 1M	$2.500 / 1M
कुल इनपुट टोकन	34,209	44,433
आउटपुट टोकन	2,046	1,819
रीजनिंग टोकन	22,460	219,524
प्रतिक्रिया समय (औसत)	9.76s	27.68s
प्रतिक्रिया समय (अधिकतम)	56.19s	199.66s
प्रतिक्रिया समय (कुल)	204.92s	581.26s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

लागत: $0.068
समय: 37.0s
टोकन: 2,339 tok

#53 xAI: Grok 4.20

medium

लागत: $0.041
समय: 110.3s
टोकन: 16,336 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442

त्वरित तुलना

तुलना जोड़ी बदलें

Gemini 3 Flash PreviewlowvsGrok 4.20medium GPT-5.5lowvsQwen3.7 Maxmedium Claude Sonnet 4.6nonevsGrok 4.20medium Claude Opus 4.8nonevsGrok 4.20medium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low GPT-5.3 ChatnonevsGrok 4.20medium DeepSeek V4 PrononevsGrok 4.20medium Qwen3.7 PlusnonevsGrok 4.20medium Gemini 3.5 FlashmediumvsGPT-5.5low Grok 4.20mediumvsGLM 5.2none Step 3.7 FlashhighvsGrok 4.20medium