#55

Grok 4.20

X AI प्रकाशन: 2026-03-31 चाचणी तारीख: 2026-06-04 14:17 x-ai/grok-4.20::medium

(medium) (none)

सारांश

Grok 4.20 AI BENCHY वर 7.3 स्कोर करते आणि #55 वर आहे. याची reliability 10.0, pass rate 63.5%, एकूण खर्च $0.609, आणि सरासरी response time 27.68s आहे.

Grok 4.20 खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर टूल कॉलिंग हा सर्वात कमकुवत भाग आहे, rank #14. हे असामान्यपणे जास्त reasoning tokens वापरते, ज्यामुळे runs हळू किंवा महाग होऊ शकतात.

ओळख नोंद

Grok 4.20 Beta हे Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.

स्कोअर

7.3

सुसंगतता

8.8

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.609 ↓ -38.9%

या किमतीवर चाचणी केली: $0.998

एकूण आउटपुट टोकन्स

221,343

एकूण इनपुट टोकन्स

44,433

इनपुट किंमत

$1.250 / 1M

आउटपुट किंमत

$2.500 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 9

प्रति प्रयत्न पास दर: 63.5%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

27.68s

प्रतिसाद वेळ (कमाल): 199.66s

प्रतिसाद वेळ (एकूण): 581.26s

चुकीचे उत्तर: 6 सूचनांचे पालन केले नाही: 2 अतिरिक्त फॉरमॅटिंग: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#55 xAI: Grok 4.20

medium

खर्च: $0.041
वेळ: 110.3s
टोकन्स: 16,336 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 14:17 नवीन चाचणी जोडली	7.1	10.0	$0.609 ↓	सध्याची रन
2026-05-22 00:32 सूट बदलला	6.7	10.0	$0.832	तुलना करा
2026-05-08 15:32 सूट बदलला	6.9	10.0	$0.756	तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन	7.0	लागू नाही	$0.743	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-06-04 14:17 · सध्याची रन	7.3	8.8	10.0	12/21	3	221,343	44,433	$0.609	27.68s
2026-04-11 01:44 · पहिली नोंदलेली रन	7.0	7.8	लागू नाही	9/18	5	111,626	0	$0.743	10.33s
फरक	+0.4	+1.0		+3	-2	+109717	+44433	-$0.134	+17353ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख	इनपुट किंमत	आउटपुट किंमत
2026-06-04 15:40	$1.250 / 1M	$2.500 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Grok 4.20mediumvsSeed-2.0-Minimedium Grok 4.20mediumvsGemini 3 Flash Previewlow Grok 4.20mediumvsDeepSeek V3.2medium Grok 4.20mediumvsGemini 3.5 Flashhigh Grok 4.20mediumvsGemini 3 Flash Previewmedium Grok 4.20mediumvsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध Grok 4.20mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.2	7.9
कोडिंग	6.3	6.6
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	3.9	2.6
सूचनांचे पालन	9.8	10.0
कोडी सोडवणे	7.7	10.0
टूल कॉलिंग	3.0	10.0
सामान्य ज्ञान	3.0	10.0

Grok 4.20

Hamster playing table tennis

#55 xAI: Grok 4.20

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स