#52

Grok 4.20

X AI प्रकाशन: 2026-03-31 चाचणी तारीख: 2026-04-11 01:44 x-ai/grok-4.20::medium

(medium) (none)

सारांश

Grok 4.20 AI BENCHY वर 7.0 स्कोर करते आणि #52 वर आहे. याची reliability लागू नाही, pass rate 66.7%, एकूण खर्च $0.743, आणि सरासरी response time 10.33s आहे.

ओळख नोंद

Grok 4.20 Beta हे Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.

स्कोअर

7.0

सुसंगतता

7.8

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.743

एकूण आउटपुट टोकन्स

111,626

एकूण इनपुट टोकन्स

इनपुट किंमत

$2.000 / 1M

आउटपुट किंमत

$6.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 9

प्रति प्रयत्न पास दर: 66.7%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

10.33s

प्रतिसाद वेळ (कमाल): 29.87s

प्रतिसाद वेळ (एकूण): 185.87s

सूचनांचे पालन केले नाही: 4 चुकीचे उत्तर: 3 API त्रुटी: 1 अतिरिक्त फॉरमॅटिंग: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#52 xAI: Grok 4.20

medium

खर्च: $0.041
वेळ: 110.3s
टोकन्स: 16,336 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 14:17 नवीन चाचणी जोडली	7.1	10.0	$0.609 ↓	तुलना करा
2026-05-22 00:32 सूट बदलला	6.7	10.0	$0.832	तुलना करा
2026-05-08 15:32 सूट बदलला	6.9	10.0	$0.756	तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन	7.0	लागू नाही	$0.743	सध्याची रन

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Grok 4.20mediumvsSeed-2.0-Minimedium Grok 4.20mediumvsGemini 3 Flash Previewlow Grok 4.20mediumvsDeepSeek V3.2medium Grok 4.20mediumvsGemini 3.5 Flashhigh Grok 4.20mediumvsGemini 3 Flash Previewmedium Grok 4.20mediumvsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध Grok 4.20mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.2	7.9
कोडिंग	4.3	1.1
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	5.8	2.8
सूचनांचे पालन	7.3	5.9
कोडी सोडवणे	6.4	7.7
टूल कॉलिंग	3.0	10.0

Grok 4.20

Hamster playing table tennis

#52 xAI: Grok 4.20

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स