AI BENCHY तुलना

Trinity Large Preview vs xAI: Grok 4.20 Beta

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक	Trinity Large Preview Trinity Large Preview none रिलीज़: 2026-01-27 निःशुल्क उपलब्ध	Grok 4.20 Beta Grok 4.20 Beta none रिलीज़: 2026-03-12

मेट्रिक	Trinity Large Preview Trinity Large Preview none रिलीज़: 2026-01-27 निःशुल्क उपलब्ध	Grok 4.20 Beta Grok 4.20 Beta none रिलीज़: 2026-03-12
रैंक	#53	#52
औसत स्कोर	4.2	4.4
संगति	9.6	9.1
प्रति परिणाम लागत	0.000	2.214
कुल लागत	$0.000	$0.089
सही परीक्षण
प्रति प्रयास पास दर	33.3%	33.3%
अस्थिर टेस्ट	1	2
कुल रन	48	48
आउटपुट टोकन	1,837	1,511
रीजनिंग टोकन	0	0
प्रतिक्रिया समय (औसत)	3.15s	1.22s
प्रतिक्रिया समय (अधिकतम)	8.91s	6.48s
प्रतिक्रिया समय (कुल)	50.46s	19.53s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
Grok 4.20 Beta	3.3	7.9	22.2%	1		562ms	245	0

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
Grok 4.20 Beta	10.0	10.0	0.0%	0		6.48s	282	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
Grok 4.20 Beta	9.9	10.0	100.0%	0		601ms	197	0

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
Grok 4.20 Beta	10.0	10.0	0.0%	0		611ms	160	0

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
Grok 4.20 Beta	4.5	10.0	0.0%	0		687ms	60	0

Puzzle Solving	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
Grok 4.20 Beta	4.0	7.2	55.6%	1		541ms	291	0

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

त्वरित तुलना

तुलना जोड़ी बदलें

MiniMax M2.5mediumvsGrok 4.20 Betanone Trinity Large Previewnoneनिःशुल्क उपलब्धvsMiniMax M2.5medium gpt-oss-120bmediumनिःशुल्क उपलब्धvsGrok 4.20 Betanone Trinity Large Previewnoneनिःशुल्क उपलब्धvsQwen3 Coder Nextmedium Trinity Large Previewnoneनिःशुल्क उपलब्धvsGrok 4.20 Multi-Agent Betamedium Trinity Large Previewnoneनिःशुल्क उपलब्धvsgpt-oss-120bmediumनिःशुल्क उपलब्ध Mercury 2mediumvsGrok 4.20 Betanone Qwen3 Coder NextmediumvsGrok 4.20 Betanone Qwen3.5-35B-A3BmediumvsGrok 4.20 Betanone Trinity Large Previewnoneनिःशुल्क उपलब्धvsMercury 2medium GPT-5 NanomediumvsGrok 4.20 Betanone Trinity Large Previewnoneनिःशुल्क उपलब्धvsGLM 4.7 Flashmedium