नेविगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY तुलना

OpenAI: gpt-oss-120b vs xAI: Grok 4.20 Multi-Agent Beta

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक gpt-oss-120b gpt-oss-120b medium रिलीज़: 2025-08-05 निःशुल्क उपलब्ध Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12
रैंक #43 #47
औसत स्कोर 5.1 4.9
संगति 7.4 7.1
प्रति परिणाम लागत 0.135 97.178
कुल लागत $0.010 $4.859
सही परीक्षण
प्रति प्रयास पास दर 54.2% 52.1%
अस्थिर टेस्ट 5 6
कुल रन 48 48
आउटपुट टोकन 13,210 293,634
रीजनिंग टोकन 34,230 291,260
प्रतिक्रिया समय (औसत) 16.65s 9.08s
प्रतिक्रिया समय (अधिकतम) 50.92s 35.28s
प्रतिक्रिया समय (कुल) 149.88s 127.09s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
gpt-oss-120b 7.0 9.8 66.7% 0 19.76s 3,463 2,077
Grok 4.20 Multi-Agent Beta 4.0 4.4 66.7% 2 3.77s 28,392 27,808
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
gpt-oss-120b 10.0 10.0 100.0% 0 31.18s 694 5,072
Grok 4.20 Multi-Agent Beta 10.0 10.0 0.0% 0 0ms 0 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
gpt-oss-120b 5.5 5.9 66.7% 1 1.98s 241 1,114
Grok 4.20 Multi-Agent Beta 9.9 10.0 100.0% 0 5.54s 25,306 25,051
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
gpt-oss-120b 10.0 4.4 22.2% 2 50.92s 6,784 20,606
Grok 4.20 Multi-Agent Beta 10.0 7.2 11.1% 1 24.67s 164,609 163,647
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
gpt-oss-120b 3.0 10.0 0.0% 0 7.90s 107 387
Grok 4.20 Multi-Agent Beta 4.0 2.8 66.7% 1 6.40s 15,848 15,746
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
gpt-oss-120b 9.5 10.0 100.0% 0 7.63s 126 1,799
Grok 4.20 Multi-Agent Beta 9.0 10.0 50.0% 0 4.63s 25,457 25,322
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
gpt-oss-120b 1.7 4.7 22.2% 2 11.80s 1,508 2,092
Grok 4.20 Multi-Agent Beta 6.3 5.1 77.8% 2 5.01s 34,022 33,686
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
gpt-oss-120b 9.0 10.0 100.0% 0 6.91s 287 1,083
Grok 4.20 Multi-Agent Beta 10.0 10.0 0.0% 0 0ms 0 0

त्वरित तुलना

तुलना जोड़ी बदलें