नेव्हिगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

OpenAI: GPT-5.5 vs Grok 4.20 Multi Agent Beta

सारांश

GPT-5.5 vs Grok 4.20 Multi Agent Beta benchmark तुलना: GPT-5.5 average score मध्ये पुढे आहे: 9.3 vs 5.0. GPT-5.5 चा benchmark खर्च कमी आहे: $0.907 vs $5.599. Grok 4.20 Multi Agent Beta वेगवान आहे: 9.69s vs 9.76s, pass rates 85.7% vs 50.8%.

शिफारस केलेले मॉडेल: GPT-5.5 - It has the best score here (9.3), while costing about 6.2x less than Grok 4.20 Multi Agent Beta.

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-06-18

मेट्रिक GPT-5.5 GPT-5.5 low प्रकाशन: 2026-04-24 Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium प्रकाशन: 2026-03-12
स्कोअर 9.3 5.0
क्रमांक #4 #136
विश्वसनीयता 10.0 लागू नाही
सुसंगतता 10.0 6.7
बरोबर चाचण्या
प्रति प्रयत्न पास दर 85.7% 50.8%
अस्थिर चाचण्या 0 5
एकूण रन 63 52
प्रति निकाल खर्च 5.035 62.923
एकूण खर्च $0.907 $5.599
इनपुट किंमत $5.000 / 1M $4.235 / 1M
आउटपुट किंमत $30.000 / 1M $4.235 / 1M
एकूण इनपुट टोकन्स 34,209 721,952
आउटपुट टोकन्स 2,046 294,668
रिझनिंग टोकन्स 22,460 305,374
प्रतिसाद वेळ (सरासरी) 9.76s 9.69s
प्रतिसाद वेळ (कमाल) 56.19s 35.28s
प्रतिसाद वेळ (एकूण) 204.92s 155.07s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low
खर्च
$0.068
वेळ
37.0s
टोकन्स
2,339 tok

#136 Grok 4.20 Multi Agent Beta

medium
खर्च
$0.261
वेळ
123.4s
टोकन्स
199,344 tok

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 4.41s 606 238 1,020
Grok 4.20 Multi Agent Beta 6.9 5.8 75.0% 2 3.46s 90,925 33,706 33,077
कोडिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 15.04s 7,302 423 6,402
Grok 4.20 Multi Agent Beta 3.3 3.3 33.3% 0 27.11s 13,212 86 13,141
संयुक्त स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 9.56s 11,019 303 717
Grok 4.20 Multi Agent Beta 3.0 10.0 0.0% 0 0ms 0 0 0
डेटा पार्सिंग आणि निष्कर्षण स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 3.28s 7,140 228 157
Grok 4.20 Multi Agent Beta 10.0 10.0 100.0% 0 5.54s 97,232 25,306 25,051
डोमेन-विशिष्ट स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 5.3 10.0 33.3% 0 28.05s 723 69 11,609
Grok 4.20 Multi Agent Beta 2.9 7.2 11.1% 1 24.67s 328,253 164,609 163,647
Samanya Buddhimatta स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 5.17s 477 133 245
Grok 4.20 Multi Agent Beta 5.8 2.8 66.7% 1 6.40s 41,387 15,848 15,746
सूचनांचे पालन स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 9.9 10.0 100.0% 0 3.74s 660 93 415
Grok 4.20 Multi Agent Beta 9.8 10.0 100.0% 0 3.52s 43,923 19,752 19,617
कोडी सोडवणे स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 4.74s 642 279 954
Grok 4.20 Multi Agent Beta 6.7 7.9 55.6% 1 5.19s 107,020 35,361 35,095
टूल कॉलिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 4.96s 5,445 250 101
Grok 4.20 Multi Agent Beta 3.0 10.0 0.0% 0 0ms 0 0 0
सामान्य ज्ञान स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 3.0 10.0 0.0% 0 10.06s 195 30 840
Grok 4.20 Multi Agent Beta 0.0 0.0 0.0% 0 0ms 0 0 0

झटपट तुलना

तुलना जोडी बदला