नेविगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY तुलना

तुलना किए गए मॉडल

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-05-01

मेट्रिक Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31 Grok 4.20 Beta Grok 4.20 Beta medium रिलीज़: 2026-03-12 Grok 4.3 Grok 4.3 medium रिलीज़: 2026-05-01
स्कोर 7.0 8.2 8.2
रैंक #63 #22 #20
विश्वसनीयता लागू नहीं लागू नहीं 10.0
संगति 7.8 9.1 8.6
सही परीक्षण
प्रति प्रयास पास दर 66.7% 79.6% 81.5%
अस्थिर टेस्ट 5 2 3
कुल रन 54 52 54
प्रति परिणाम लागत 8.252 4.864 3.974
कुल लागत $0.743 $0.633 $0.517
???? ??? $2.000 / 1M $0.000 / 1M $1.250 / 1M
????? ??? $6.000 / 1M $0.000 / 1M $2.500 / 1M
आउटपुट टोकन 1,744 1,568 1,223
रीजनिंग टोकन 109,882 91,909 187,047
प्रतिक्रिया समय (औसत) 10.33s 9.81s 48.63s
प्रतिक्रिया समय (अधिकतम) 29.87s 31.36s 216.69s
प्रतिक्रिया समय (कुल) 185.87s 176.62s 875.27s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Grok 4.20 8.2 7.9 83.3% 1 3.36s 280 8,476
Grok 4.20 Beta 8.7 7.9 91.7% 1 3.16s 268 7,583
Grok 4.3 10.0 10.0 100.0% 0 8.83s 88 8,207
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Grok 4.20 4.3 1.1 66.7% 1 24.33s 250 12,804
Grok 4.20 Beta 10.0 10.0 100.0% 0 31.36s 81 3,987
Grok 4.3 10.0 10.0 100.0% 0 45.72s 284 9,659
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Grok 4.20 10.0 10.0 100.0% 0 17.40s 232 9,556
Grok 4.20 Beta 10.0 10.0 100.0% 0 20.93s 227 12,212
Grok 4.3 10.0 10.0 100.0% 0 63.99s 234 15,301
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Grok 4.20 10.0 10.0 100.0% 0 4.17s 180 5,333
Grok 4.20 Beta 10.0 10.0 100.0% 0 4.01s 180 5,281
Grok 4.3 10.0 10.0 100.0% 0 18.97s 180 9,546
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Grok 4.20 5.3 10.0 33.3% 0 27.03s 375 49,339
Grok 4.20 Beta 5.3 10.0 33.3% 0 21.33s 251 40,255
Grok 4.3 5.3 7.2 44.4% 1 181.74s 14 111,300
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Grok 4.20 5.8 2.8 66.7% 1 7.09s 47 4,252
Grok 4.20 Beta 10.0 10.0 100.0% 0 5.78s 72 3,440
Grok 4.3 5.4 2.5 66.7% 1 24.70s 70 5,020
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Grok 4.20 7.3 6.0 83.3% 1 4.42s 40 5,474
Grok 4.20 Beta 9.8 10.0 100.0% 0 4.97s 57 7,107
Grok 4.3 9.8 10.0 100.0% 0 18.58s 57 8,713
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Grok 4.20 6.4 7.7 55.6% 1 3.89s 143 8,028
Grok 4.20 Beta 8.2 7.2 88.9% 1 3.85s 249 6,660
Grok 4.3 5.9 7.2 55.6% 1 22.53s 128 14,686
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Grok 4.20 3.0 10.0 0.0% 0 13.68s 197 6,620
Grok 4.20 Beta 3.0 10.0 0.0% 0 12.39s 183 5,384
Grok 4.3 10.0 10.0 100.0% 0 17.66s 168 4,615

त्वरित तुलना

तुलना जोड़ी बदलें