AI BENCHY तुलना

Trinity Large Preview vs xAI: Grok 4.20 Multi-Agent Beta

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक	Trinity Large Preview Trinity Large Preview none रिलीज़: 2026-01-27 निःशुल्क उपलब्ध	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12

मेट्रिक	Trinity Large Preview Trinity Large Preview none रिलीज़: 2026-01-27 निःशुल्क उपलब्ध	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12
रैंक	#53	#47
औसत स्कोर	4.2	4.9
संगति	9.6	7.1
प्रति परिणाम लागत	0.000	97.178
कुल लागत	$0.000	$4.859
सही परीक्षण
प्रति प्रयास पास दर	33.3%	52.1%
अस्थिर टेस्ट	1	6
कुल रन	48	48
आउटपुट टोकन	1,837	293,634
रीजनिंग टोकन	0	291,260
प्रतिक्रिया समय (औसत)	3.15s	9.08s
प्रतिक्रिया समय (अधिकतम)	8.91s	35.28s
प्रतिक्रिया समय (कुल)	50.46s	127.09s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
Grok 4.20 Multi-Agent Beta	4.0	4.4	66.7%	2		3.77s	28,392	27,808

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
Grok 4.20 Multi-Agent Beta	9.9	10.0	100.0%	0		5.54s	25,306	25,051

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
Grok 4.20 Multi-Agent Beta	10.0	7.2	11.1%	1		24.67s	164,609	163,647

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
Grok 4.20 Multi-Agent Beta	4.0	2.8	66.7%	1		6.40s	15,848	15,746

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
Grok 4.20 Multi-Agent Beta	9.0	10.0	50.0%	0		4.63s	25,457	25,322

Puzzle Solving	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
Grok 4.20 Multi-Agent Beta	6.3	5.1	77.8%	2		5.01s	34,022	33,686

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

त्वरित तुलना

तुलना जोड़ी बदलें

Qwen3.5-27BnonevsGrok 4.20 Multi-Agent Betamedium Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-122B-A10BnonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium Gemini 2.5 FlashnonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-FlashnonevsGrok 4.20 Multi-Agent Betamedium Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium GPT-5.4nonevsGrok 4.20 Multi-Agent Betamedium Trinity Large Previewnoneनिःशुल्क उपलब्धvsMiniMax M2.5medium DeepSeek V3.2nonevsGrok 4.20 Multi-Agent Betamedium Trinity Large Previewnoneनिःशुल्क उपलब्धvsQwen3 Coder Nextmedium Kimi K2.5nonevsGrok 4.20 Multi-Agent Betamedium