नेविगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY तुलना

OpenAI: GPT-5.4 Nano vs xAI: Grok 4.20 Multi-Agent Beta

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-17

मेट्रिक GPT-5.4 Nano GPT-5.4 Nano none रिलीज़: 2026-03-17 Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12
रैंक #73 #44
स्कोर 4.3 6.2
संगति 7.3 7.2
प्रति परिणाम लागत 0.404 82.962
कुल लागत $0.009 $4.978
सही परीक्षण
प्रति प्रयास पास दर 29.4% 54.9%
अस्थिर टेस्ट 6 6
कुल रन 51 51
आउटपुट टोकन 2,185 298,948
रीजनिंग टोकन 0 296,529
प्रतिक्रिया समय (औसत) 1.39s 8.64s
प्रतिक्रिया समय (अधिकतम) 3.84s 35.28s
प्रतिक्रिया समय (कुल) 23.70s 129.64s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Nano 3.5 8.0 16.7% 1 1.18s 800 0
Grok 4.20 Multi-Agent Beta 6.9 5.8 75.0% 2 3.46s 33,706 33,077
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Nano 3.0 10.0 0.0% 0 3.84s 280 0
Grok 4.20 Multi-Agent Beta 3.0 10.0 0.0% 0 0ms 0 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Nano 6.5 10.0 50.0% 0 1.11s 219 0
Grok 4.20 Multi-Agent Beta 10.0 10.0 100.0% 0 5.54s 25,306 25,051
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Nano 2.9 4.4 22.2% 2 926ms 52 0
Grok 4.20 Multi-Agent Beta 2.9 7.2 11.1% 1 24.67s 164,609 163,647
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Nano 3.8 2.5 33.3% 1 1.31s 180 0
Grok 4.20 Multi-Agent Beta 5.8 2.8 66.7% 1 6.40s 15,848 15,746
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Nano 5.0 6.8 33.3% 1 787ms 84 0
Grok 4.20 Multi-Agent Beta 8.3 10.0 50.0% 0 4.63s 25,457 25,322
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Nano 3.7 7.3 22.2% 1 1.29s 348 0
Grok 4.20 Multi-Agent Beta 7.2 5.1 77.8% 2 5.01s 34,022 33,686
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Nano 10.0 10.0 100.0% 0 3.40s 222 0
Grok 4.20 Multi-Agent Beta 3.0 10.0 0.0% 0 0ms 0 0

त्वरित तुलना

तुलना जोड़ी बदलें