AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com
#14

Grok 4.20 Beta

X AI प्रकाशन: 2026-03-12 चाचणी तारीख: 2026-05-06 14:15 x-ai/grok-4.20-beta::medium
(medium) (none)

सारांश

Grok 4.20 Beta AI BENCHY वर 8.5 स्कोर करते आणि #14 वर आहे. याची reliability लागू नाही, pass rate 81.5%, एकूण खर्च $0.750, आणि सरासरी response time 9.75s आहे.

संग्रहित मॉडेल: हे मॉडेल आता अपडेट केले जाणार नाही आणि नवीन चाचण्यांवर तपासले जाणार नाही.

ओळख नोंद

Grok 4.20 Beta हे xAI: Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.

सुसंगतता

9.5

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.750 ↑ +18.9%

या किमतीवर चाचणी केली: $0.631

एकूण आउटपुट टोकन्स

93,212

एकूण इनपुट टोकन्स

35,955

इनपुट किंमत

$5.805 / 1M

आउटपुट किंमत

$5.805 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 4

प्रति प्रयत्न पास दर: 81.5%

अस्थिर चाचण्या

1

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

9.75s

प्रतिसाद वेळ (कमाल): 31.36s

प्रतिसाद वेळ (एकूण): 175.48s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#14 Grok 4.20 Beta

medium
Cost
$0.034
Time
91.0s
Tokens
13,523 tok

रन इतिहास

चाचणी तारीख स्कोअर विश्वसनीयता बरोबर चाचण्या एकूण खर्च तुलना करा
2026-05-06 14:15 पुन्हा चाचणी 8.5 लागू नाही $0.750 सध्याची रन
2026-05-06 14:15 पुन्हा चाचणी 8.2 लागू नाही $0.633 तुलना करा
2026-05-06 14:15 पुन्हा चाचणी 8.2 लागू नाही $0.633 तुलना करा
2026-05-06 14:15 सूट बदलला 8.2 लागू नाही $0.633 तुलना करा
2026-04-11 01:19 पहिली नोंदलेली रन 8.0 लागू नाही $0.633 तुलना करा

रन तुलना

रनस्कोअरसुसंगतताविश्वसनीयताबरोबर चाचण्याअस्थिर चाचण्याएकूण आउटपुट टोकन्सएकूण इनपुट टोकन्सएकूण खर्चप्रतिसाद वेळ (सरासरी)
2026-05-06 14:15 · सध्याची रन8.59.5लागू नाही14/18193,21235,955$0.7509.75s
2026-04-11 01:19 · पहिली नोंदलेली रन8.09.1लागू नाही12/18293,4770$0.6339.81s
फरक+0.5+0.4+2-1-265+35955+$0.118-63ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख इनपुट किंमत आउटपुट किंमत
2026-06-04 15:40 $5.805 / 1M $5.805 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी स्कोअर सुसंगतता बरोबर चाचण्या
अँटी-एआय युक्त्या 8.7 7.9
कोडिंग 10.0 10.0
संयुक्त 10.0 10.0
डेटा पार्सिंग आणि निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 5.3 10.0
Samanya Buddhimatta 10.0 10.0
सूचनांचे पालन 9.8 10.0
कोडी सोडवणे 10.0 10.0
टूल कॉलिंग 3.0 10.0

तुलना केलेली मॉडेल्स