AI BENCHY तुलना

OpenAI: GPT-5.3 Chat vs xAI: Grok Build 0.1

सारांश

GPT-5.3 Chat vs Grok Build 0.1 benchmark तुलना: Grok Build 0.1 average score में आगे है: 7.6 vs 7.5. GPT-5.3 Chat की benchmark लागत कम है: $0.433 vs $0.927. GPT-5.3 Chat तेज है: 6.34s vs 49.90s, pass rates 66.7% vs 61.9%.

अनुशंसित मॉडल: GPT-5.3 Chat - Its score stays close to the best score here (7.5 vs 7.6), while costing about 2.1x less than Grok Build 0.1.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-07-02

मेट्रिक	GPT-5.3 Chat GPT-5.3 Chat none रिलीज़: 2026-03-03	Grok Build 0.1 Grok Build 0.1 medium रिलीज़: 2026-05-21

मेट्रिक	GPT-5.3 Chat GPT-5.3 Chat none रिलीज़: 2026-03-03	Grok Build 0.1 Grok Build 0.1 medium रिलीज़: 2026-05-21
स्कोर	7.5	7.6
रैंक	#47	#44
विश्वसनीयता	10.0	10.0
संगति	8.1	9.9
सही परीक्षण
प्रति प्रयास पास दर	66.7%	61.9%
अस्थिर टेस्ट	5	0
कुल रन	63	63
प्रति परिणाम लागत	3.605	7.124
कुल लागत	$0.433	$0.927
इनपुट कीमत	$1.750 / 1M	$1.000 / 1M
आउटपुट कीमत	$14.000 / 1M	$2.000 / 1M
कुल इनपुट टोकन	34,209	44,418
आउटपुट टोकन	26,617	2,782
रीजनिंग टोकन	0	438,018
प्रतिक्रिया समय (औसत)	6.34s	49.90s
प्रतिक्रिया समय (अधिकतम)	18.33s	252.69s
प्रतिक्रिया समय (कुल)	133.13s	1047.92s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#47 GPT-5.3 Chat

none

लागत: $0.008
समय: 8.1s
टोकन: 634 tok

#44 xAI: Grok Build 0.1

medium

लागत: $0.028
समय: 81.3s
टोकन: 14,009 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0
Grok Build 0.1	8.3	10.0	75.0%	0		7.43s	2,010	220	12,162

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0
Grok Build 0.1	5.7	9.7	33.3%	0		108.46s	8,304	1,138	161,452

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	11,019	2,614	0
Grok Build 0.1	10.0	10.0	100.0%	0		32.81s	12,909	231	16,917

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0
Grok Build 0.1	10.0	10.0	100.0%	0		10.72s	7,761	180	8,876

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0
Grok Build 0.1	5.3	10.0	33.3%	0		158.00s	1,764	492	175,294

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0
Grok Build 0.1	4.4	9.9	0.0%	0		18.41s	825	76	6,345

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0
Grok Build 0.1	9.8	10.0	100.0%	0		12.36s	1,362	57	9,599

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0
Grok Build 0.1	7.7	10.0	66.7%	0		18.26s	1,689	195	20,841

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0
Grok Build 0.1	10.0	10.0	100.0%	0		13.12s	7,263	180	4,969

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0
Grok Build 0.1	3.0	10.0	0.0%	0		53.51s	531	13	21,563

त्वरित तुलना

तुलना जोड़ी बदलें

DeepSeek V4 ProhighvsGrok Build 0.1medium Mercury 2mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.6 Flashmedium DeepSeek V3.2mediumvsGPT-5.3 Chatnone DeepSeek V4 ProhighvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2.5-Promedium MiniMax M3mediumvsGPT-5.3 Chatnone Step 3.7 FlashlowvsGrok Build 0.1medium Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone Claude Opus 4.8lowvsGrok Build 0.1medium