AI BENCHY तुलना

OpenAI: gpt-oss-120b vs xAI: Grok 4.20 Multi-Agent Beta

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक	gpt-oss-120b gpt-oss-120b medium रिलीज़: 2025-08-05 निःशुल्क उपलब्ध	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12

मेट्रिक	gpt-oss-120b gpt-oss-120b medium रिलीज़: 2025-08-05 निःशुल्क उपलब्ध	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12
रैंक	#43	#47
औसत स्कोर	5.1	4.9
संगति	7.4	7.1
प्रति परिणाम लागत	0.135	97.178
कुल लागत	$0.010	$4.859
सही परीक्षण
प्रति प्रयास पास दर	54.2%	52.1%
अस्थिर टेस्ट	5	6
कुल रन	48	48
आउटपुट टोकन	13,210	293,634
रीजनिंग टोकन	34,230	291,260
प्रतिक्रिया समय (औसत)	16.65s	9.08s
प्रतिक्रिया समय (अधिकतम)	50.92s	35.28s
प्रतिक्रिया समय (कुल)	149.88s	127.09s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	7.0	9.8	66.7%	0		19.76s	3,463	2,077
Grok 4.20 Multi-Agent Beta	4.0	4.4	66.7%	2		3.77s	28,392	27,808

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	5.5	5.9	66.7%	1		1.98s	241	1,114
Grok 4.20 Multi-Agent Beta	9.9	10.0	100.0%	0		5.54s	25,306	25,051

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	10.0	4.4	22.2%	2		50.92s	6,784	20,606
Grok 4.20 Multi-Agent Beta	10.0	7.2	11.1%	1		24.67s	164,609	163,647

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	3.0	10.0	0.0%	0		7.90s	107	387
Grok 4.20 Multi-Agent Beta	4.0	2.8	66.7%	1		6.40s	15,848	15,746

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	9.5	10.0	100.0%	0		7.63s	126	1,799
Grok 4.20 Multi-Agent Beta	9.0	10.0	50.0%	0		4.63s	25,457	25,322

Puzzle Solving	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	1.7	4.7	22.2%	2		11.80s	1,508	2,092
Grok 4.20 Multi-Agent Beta	6.3	5.1	77.8%	2		5.01s	34,022	33,686

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	9.0	10.0	100.0%	0		6.91s	287	1,083
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

त्वरित तुलना

तुलना जोड़ी बदलें

Qwen3.5-27BnonevsGrok 4.20 Multi-Agent Betamedium Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.5-122B-A10Bnone Qwen3.5-122B-A10BnonevsGrok 4.20 Multi-Agent Betamedium Gemini 2.5 Flashnonevsgpt-oss-120bmediumनिःशुल्क उपलब्ध gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.5-Flashnone Seed-2.0-Litenonevsgpt-oss-120bmediumनिःशुल्क उपलब्ध gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.5-27Bnone Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium Gemini 2.5 FlashnonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-FlashnonevsGrok 4.20 Multi-Agent Betamedium Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium