#89

Grok 4.20

X AI प्रकाशन: 2026-03-31 चाचणी तारीख: 2026-04-11 01:44 x-ai/grok-4.20::none

(medium) (none)

सारांश

Grok 4.20 AI BENCHY वर 5.2 स्कोर करते आणि #89 वर आहे. याची reliability लागू नाही, pass rate 29.6%, एकूण खर्च $0.095, आणि सरासरी response time 1.11s आहे.

Grok 4.20 खास का आहे: समान मॉडेल्सच्या तुलनेत हे लक्षणीय वेगवान आहे.

ओळख नोंद

Grok 4.20 Beta हे Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.

स्कोअर

5.2

सुसंगतता

9.5

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.095

एकूण आउटपुट टोकन्स

1,967

एकूण इनपुट टोकन्स

इनपुट किंमत

$2.000 / 1M

आउटपुट किंमत

$6.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 13

प्रति प्रयत्न पास दर: 29.6%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

1.11s

प्रतिसाद वेळ (कमाल): 6.04s

प्रतिसाद वेळ (एकूण): 20.02s

चुकीचे उत्तर: 9 सूचनांचे पालन केले नाही: 2 अतिरिक्त फॉरमॅटिंग: 1 अवैध टूल कॉल: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#89 xAI: Grok 4.20

none

खर्च: $0.004
वेळ: 6.5s
टोकन्स: 1,367 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-05-06 14:16 पुन्हा चाचणी	5.4	लागू नाही	$0.057 ↓	तुलना करा
2026-05-06 14:16 पुन्हा चाचणी	5.4	लागू नाही	$0.095	तुलना करा
2026-05-06 14:16 पुन्हा चाचणी	5.4	लागू नाही	$0.095	तुलना करा
2026-05-06 14:16 सूट बदलला	5.4	लागू नाही	$0.095	तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन	5.2	लागू नाही	$0.095	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-11 01:44 · पहिली नोंदलेली रन	5.2	9.5	लागू नाही	5/18	1	1,967	0	$0.095	1.11s
2026-05-06 14:16 · पुन्हा चाचणी	5.4	10.0	लागू नाही	6/18	0	1,923	41,313	$0.057	1.11s
फरक	-0.2	-0.5		-1	+1	+44	-41313	+$0.038	+4ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Grok 4.20nonevsQwen3.5-122B-A10Bnone Grok 4.20nonevsMiniMax M2.7medium Grok 4.20nonevsGPT-5.4 Mininone Grok 4.20nonevsQwen3.6 35B A3Bnone Grok 4.20nonevsLaguna XS 2.1noneमोफत उपलब्ध Grok 4.20nonevsMistral Small 4none Grok 4.20nonevsGemini 3.5 Flashhigh Grok 4.20nonevsGemini 3 Flash Previewmedium Grok 4.20nonevsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध Grok 4.20nonevsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	4.8	10.0
कोडिंग	3.4	9.3
संयुक्त	3.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	4.8	10.0
सूचनांचे पालन	4.8	10.0
कोडी सोडवणे	5.3	7.4
टूल कॉलिंग	10.0	10.0

Grok 4.20

Hamster playing table tennis

#89 xAI: Grok 4.20

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स