AI BENCHY तुलना

OpenAI: GPT-5.4 vs xAI: Grok 4.20 Multi-Agent Beta

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक	GPT-5.4 GPT-5.4 none रिलीज़: 2026-03-05	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12

मेट्रिक	GPT-5.4 GPT-5.4 none रिलीज़: 2026-03-05	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12
रैंक	#51	#47
औसत स्कोर	4.5	4.9
संगति	8.9	7.1
प्रति परिणाम लागत	1.562	97.178
कुल लागत	$0.094	$4.859
सही परीक्षण
प्रति प्रयास पास दर	41.7%	52.1%
अस्थिर टेस्ट	2	6
कुल रन	48	48
आउटपुट टोकन	1,819	293,634
रीजनिंग टोकन	0	291,260
प्रतिक्रिया समय (औसत)	1.48s	9.08s
प्रतिक्रिया समय (अधिकतम)	2.89s	35.28s
प्रतिक्रिया समय (कुल)	23.64s	127.09s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
Grok 4.20 Multi-Agent Beta	4.0	4.4	66.7%	2		3.77s	28,392	27,808

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
Grok 4.20 Multi-Agent Beta	9.9	10.0	100.0%	0		5.54s	25,306	25,051

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
Grok 4.20 Multi-Agent Beta	10.0	7.2	11.1%	1		24.67s	164,609	163,647

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.4	3.0	9.9	0.0%	0		1.78s	184	0
Grok 4.20 Multi-Agent Beta	4.0	2.8	66.7%	1		6.40s	15,848	15,746

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
Grok 4.20 Multi-Agent Beta	9.0	10.0	50.0%	0		4.63s	25,457	25,322

Puzzle Solving	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
Grok 4.20 Multi-Agent Beta	6.3	5.1	77.8%	2		5.01s	34,022	33,686

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

त्वरित तुलना

तुलना जोड़ी बदलें

Qwen3.5-27BnonevsGrok 4.20 Multi-Agent Betamedium Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-122B-A10BnonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumvsGPT-5.4none Gemini 2.5 FlashnonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-FlashnonevsGrok 4.20 Multi-Agent Betamedium Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium DeepSeek V3.2nonevsGrok 4.20 Multi-Agent Betamedium Trinity Large Previewnoneनिःशुल्क उपलब्धvsGrok 4.20 Multi-Agent Betamedium Mercury 2mediumvsGPT-5.4none Kimi K2.5nonevsGrok 4.20 Multi-Agent Betamedium