तुलना किए गए मॉडल

Grok 4.20 (medium) vs Grok 4.20 Beta (medium) vs Grok 4.3 (medium) benchmark तुलना: Grok 4.3 (medium) स्कोर में 7.1 के साथ आगे है। Grok 4.20 (medium) विश्वसनीयता में 10.0 के साथ आगे है। Grok 4.20 Beta (medium) का कुल लागत सबसे कम है: $0.750. Grok 4.20 Beta (medium) 9.75s पर सबसे तेज है।

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-08-01

रैंक: #90
कुल आउटपुट टोकन: 259,340
प्रतिक्रिया समय (औसत): 29.47s
कुल लागत: $0.777

रैंक: #152
कुल आउटपुट टोकन: 93,212
प्रतिक्रिया समय (औसत): 9.75s
कुल लागत: $0.750

रैंक: #88
कुल आउटपुट टोकन: 241,421
प्रतिक्रिया समय (औसत): 47.45s
कुल लागत: $0.779

अनुशंसित मॉडल Grok 4.20 (medium)

It has the strongest score in this comparison (7.1) and the best overall balance of cost and response time across all 3 models.

विस्तृत तुलना

मेट्रिक	Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium रिलीज़: 2026-03-12	Grok 4.3 Grok 4.3 medium रिलीज़: 2026-05-01

मेट्रिक	Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium रिलीज़: 2026-03-12	Grok 4.3 Grok 4.3 medium रिलीज़: 2026-05-01
स्कोर	7.1	6.0	7.1
रैंक	#90	#152	#88
विश्वसनीयता	10.0	लागू नहीं	10.0
संगति	8.5	7.8	8.6
सही परीक्षण
प्रति प्रयास पास दर	63.6%	66.7%	68.2%
अस्थिर टेस्ट	4	1	4
कुल रन	66	52	66
प्रति परिणाम लागत	9.709	4.505	5.990
कुल लागत	$0.777	$0.750	$0.779
इनपुट कीमत	$1.250 / 1M	$5.805 / 1M	$1.250 / 1M
आउटपुट कीमत	$2.500 / 1M	$5.805 / 1M	$2.500 / 1M
कुल इनपुट टोकन	102,791	35,955	140,031
आउटपुट टोकन	5,363	1,647	13,739
रीजनिंग टोकन	253,977	91,565	227,682
प्रतिक्रिया समय (औसत)	29.47s	9.75s	47.45s
प्रतिक्रिया समय (अधिकतम)	199.66s	31.36s	216.69s
प्रतिक्रिया समय (कुल)	648.35s	175.48s	1043.83s

मॉडल जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#90 xAI: Grok 4.20

medium

लागत: $0.041
समय: 110.3s
टोकन: 16,336 tok

#152 Grok 4.20 Beta

medium

लागत: $0.034
समय: 91.0s
टोकन: 13,523 tok

#88 xAI: Grok 4.3

medium

लागत: $0.009
समय: 19.0s
टोकन: 3,661 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

श्रेणी:

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	8.2	7.9	83.3%	1	3.95s	2,010	287	8,312
Grok 4.20 Beta	8.7	7.9	91.7%	1	3.16s	2,010	268	7,583
Grok 4.3	10.0	10.0	100.0%	0	8.83s	2,010	88	8,207

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	6.3	6.6	55.6%	1	109.93s	8,307	268	103,150
Grok 4.20 Beta	3.3	3.3	33.3%	0	31.36s	360	81	3,987
Grok 4.3	5.9	7.7	44.4%	1	41.23s	8,340	1,028	31,226

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	8.7	6.9	83.3%	1	42.25s	71,267	3,776	44,009
Grok 4.20 Beta	5.0	5.0	50.0%	0	20.93s	12,909	227	12,212
Grok 4.3	6.5	10.0	50.0%	0	55.07s	108,468	11,992	21,601

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	10.0	10.0	100.0%	4.17s	7,761	180	5,333
Grok 4.20 Beta	10.0	10.0	100.0%	4.01s	7,761	180	5,281
Grok 4.3	10.0	10.0	100.0%	18.97s	7,761	180	9,546

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	5.3	10.0	33.3%	0	27.03s	1,764	375	49,339
Grok 4.20 Beta	5.3	10.0	33.3%	0	21.33s	1,764	251	40,255
Grok 4.3	5.3	7.2	44.4%	1	181.74s	1,764	14	111,300

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	3.9	2.6	33.3%	1	24.48s	825	65	6,440
Grok 4.20 Beta	10.0	10.0	100.0%	0	5.78s	825	72	3,440
Grok 4.3	5.4	2.5	66.7%	1	24.70s	825	70	5,020

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	9.8	10.0	100.0%	4.26s	1,362	57	6,419
Grok 4.20 Beta	9.8	10.0	100.0%	4.89s	1,362	57	7,123
Grok 4.3	9.8	10.0	100.0%	18.58s	1,362	57	8,713

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	7.7	10.0	66.7%	0	6.22s	1,689	149	7,913
Grok 4.20 Beta	10.0	10.0	100.0%	0	3.52s	1,689	328	6,300
Grok 4.3	5.9	7.2	55.6%	1	22.52s	1,689	128	14,468

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	3.0	10.0	0.0%	13.68s	7,275	197	6,620
Grok 4.20 Beta	3.0	10.0	0.0%	12.39s	7,275	183	5,384
Grok 4.3	10.0	10.0	100.0%	17.66s	7,263	168	4,615

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	3.0	10.0	0.0%	63.48s	531	9	16,442
Grok 4.20 Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.3	3.0	10.0	0.0%	44.47s	549	14	12,986

त्वरित तुलना

तुलना जोड़ी बदलें

Qwen3.7 PlusnonevsGrok 4.3medium Qwen3.7 PlusnonevsGrok 4.20medium KAT-Coder-Pro V2.5highvsGrok 4.3medium KAT-Coder-Pro V2.5highvsGrok 4.20medium Step 3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.3medium Gemini 3.5 FlashnonevsGrok 4.20medium Step 3.7 FlashlowvsGrok 4.20medium Qwen3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.20medium Gemini 3.5 FlashnonevsGrok 4.3medium Qwen3.7 FlashlowvsGrok 4.20medium