नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

OpenAI: GPT-5.5 vs Grok 4.20 Beta

सारांश

GPT-5.5 vs Grok 4.20 Beta benchmark तुलना: GPT-5.5 average score में आगे है: 9.3 vs 6.8. Grok 4.20 Beta की benchmark लागत कम है: $0.750 vs $0.907. Grok 4.20 Beta तेज है: 9.75s vs 9.76s, pass rates 85.7% vs 69.8%.

अनुशंसित मॉडल: GPT-5.5 - It has the strongest score in this comparison (9.3) and the best overall balance of cost and response time across all 2 models.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24 Grok 4.20 Beta Grok 4.20 Beta medium रिलीज़: 2026-03-12
स्कोर 9.3 6.8
रैंक #4 #69
विश्वसनीयता 10.0 लागू नहीं
संगति 10.0 8.2
सही परीक्षण
प्रति प्रयास पास दर 85.7% 69.8%
अस्थिर टेस्ट 0 1
कुल रन 63 52
प्रति परिणाम लागत 5.035 4.505
कुल लागत $0.907 $0.750
इनपुट कीमत $5.000 / 1M $5.805 / 1M
आउटपुट कीमत $30.000 / 1M $5.805 / 1M
कुल इनपुट टोकन 34,209 35,955
आउटपुट टोकन 2,046 1,647
रीजनिंग टोकन 22,460 91,565
प्रतिक्रिया समय (औसत) 9.76s 9.75s
प्रतिक्रिया समय (अधिकतम) 56.19s 31.36s
प्रतिक्रिया समय (कुल) 204.92s 175.48s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low
लागत
$0.068
समय
37.0s
टोकन
2,339 tok

#69 Grok 4.20 Beta

medium
लागत
$0.034
समय
91.0s
टोकन
13,523 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 4.41s 606 238 1,020
Grok 4.20 Beta 8.7 7.9 91.7% 1 3.16s 2,010 268 7,583
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 15.04s 7,302 423 6,402
Grok 4.20 Beta 3.3 3.3 33.3% 0 31.36s 360 81 3,987
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 9.56s 11,019 303 717
Grok 4.20 Beta 10.0 10.0 100.0% 0 20.93s 12,909 227 12,212
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 3.28s 7,140 228 157
Grok 4.20 Beta 10.0 10.0 100.0% 0 4.01s 7,761 180 5,281
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 5.3 10.0 33.3% 0 28.05s 723 69 11,609
Grok 4.20 Beta 5.3 10.0 33.3% 0 21.33s 1,764 251 40,255
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 5.17s 477 133 245
Grok 4.20 Beta 10.0 10.0 100.0% 0 5.78s 825 72 3,440
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 9.9 10.0 100.0% 0 3.74s 660 93 415
Grok 4.20 Beta 9.8 10.0 100.0% 0 4.89s 1,362 57 7,123
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 4.74s 642 279 954
Grok 4.20 Beta 10.0 10.0 100.0% 0 3.52s 1,689 328 6,300
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 4.96s 5,445 250 101
Grok 4.20 Beta 3.0 10.0 0.0% 0 12.39s 7,275 183 5,384
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 3.0 10.0 0.0% 0 10.06s 195 30 840
Grok 4.20 Beta 0.0 0.0 0.0% 0 0ms 0 0 0

त्वरित तुलना

तुलना जोड़ी बदलें