नेविगेशन
AI BENCHY
Your ad here

AI BENCHY तुलना

Trinity Large Preview vs xAI: Grok 4.20 Beta

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक Trinity Large Preview Trinity Large Preview none रिलीज़: 2026-01-27 निःशुल्क उपलब्ध Grok 4.20 Beta Grok 4.20 Beta none रिलीज़: 2026-03-12
रैंक #53 #52
औसत स्कोर 4.2 4.4
संगति 9.6 9.1
प्रति परिणाम लागत 0.000 2.214
कुल लागत $0.000 $0.089
सही परीक्षण
प्रति प्रयास पास दर 33.3% 33.3%
अस्थिर टेस्ट 1 2
कुल रन 48 48
आउटपुट टोकन 1,837 1,511
रीजनिंग टोकन 0 0
प्रतिक्रिया समय (औसत) 3.15s 1.22s
प्रतिक्रिया समय (अधिकतम) 8.91s 6.48s
प्रतिक्रिया समय (कुल) 50.46s 19.53s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Trinity Large Preview 10.0 10.0 0.0% 0 3.59s 587 0
Grok 4.20 Beta 3.3 7.9 22.2% 1 562ms 245 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Trinity Large Preview 10.0 10.0 0.0% 0 8.91s 294 0
Grok 4.20 Beta 10.0 10.0 0.0% 0 6.48s 282 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Trinity Large Preview 9.9 10.0 100.0% 0 3.26s 186 0
Grok 4.20 Beta 9.9 10.0 100.0% 0 601ms 197 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Trinity Large Preview 4.0 10.0 33.3% 0 877ms 25 0
Grok 4.20 Beta 10.0 10.0 0.0% 0 611ms 160 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Trinity Large Preview 3.0 9.9 0.0% 0 2.86s 124 0
Grok 4.20 Beta 5.0 10.0 0.0% 0 541ms 87 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Trinity Large Preview 3.5 6.7 16.7% 1 1.09s 63 0
Grok 4.20 Beta 4.5 10.0 0.0% 0 687ms 60 0
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Trinity Large Preview 4.0 10.0 33.3% 0 3.30s 291 0
Grok 4.20 Beta 4.0 7.2 55.6% 1 541ms 291 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Trinity Large Preview 10.0 10.0 100.0% 0 6.67s 267 0
Grok 4.20 Beta 10.0 10.0 100.0% 0 4.79s 189 0

त्वरित तुलना

तुलना जोड़ी बदलें