AI BENCHY
Advertise here
#107

Grok 4.20 Beta

X AI प्रकाशन: 2026-03-12 चाचणी तारीख: 2026-05-06 14:15 x-ai/grok-4.20-beta::none
(medium) (none)

सारांश

Grok 4.20 Beta AI BENCHY वर 5.8 स्कोर करते आणि #107 वर आहे. याची reliability लागू नाही, pass rate 37.0%, एकूण खर्च $0.087, आणि सरासरी response time 1.19s आहे.

Grok 4.20 Beta खास का आहे: हे कोडी सोडवणे मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर सूचनांचे पालन हा सर्वात कमकुवत भाग आहे, rank #10. समान मॉडेल्सच्या तुलनेत हे लक्षणीय वेगवान आहे.

संग्रहित मॉडेल: हे मॉडेल आता अपडेट केले जाणार नाही आणि नवीन चाचण्यांवर तपासले जाणार नाही.

ओळख नोंद

Grok 4.20 Beta हे xAI: Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.

सुसंगतता

9.6

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.087 ↓ -4.8%

या किमतीवर चाचणी केली: $0.091

एकूण आउटपुट टोकन्स

1,657

एकूण इनपुट टोकन्स

40,597

इनपुट किंमत

$2.041 / 1M

आउटपुट किंमत

$2.041 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 12

प्रति प्रयत्न पास दर: 37.0%

अस्थिर चाचण्या

1

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

1.19s

प्रतिसाद वेळ (कमाल): 6.48s

प्रतिसाद वेळ (एकूण): 21.43s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#107 Grok 4.20 Beta

none
Invalid SVG
Cost
$0.004
Time
8.5s
Tokens
1,672 tok

रन इतिहास

चाचणी तारीख स्कोअर विश्वसनीयता बरोबर चाचण्या एकूण खर्च तुलना करा
2026-05-06 14:15 पुन्हा चाचणी 5.8 लागू नाही $0.087 सध्याची रन
2026-05-06 14:15 पुन्हा चाचणी 5.5 लागू नाही $0.091 तुलना करा
2026-05-06 14:15 पुन्हा चाचणी 5.5 लागू नाही $0.091 तुलना करा
2026-05-06 14:15 सूट बदलला 5.5 लागू नाही $0.091 तुलना करा
2026-04-11 01:19 पहिली नोंदलेली रन 5.3 लागू नाही $0.091 तुलना करा

रन तुलना

रनस्कोअरसुसंगतताविश्वसनीयताबरोबर चाचण्याअस्थिर चाचण्याएकूण आउटपुट टोकन्सएकूण इनपुट टोकन्सएकूण खर्चप्रतिसाद वेळ (सरासरी)
2026-05-06 14:15 · सध्याची रन5.89.6लागू नाही6/1811,65740,597$0.0871.19s
2026-04-11 01:19 · पहिली नोंदलेली रन5.39.2लागू नाही4/1821,5910$0.0911.19s
फरक+0.5+0.4+2-1+66+40597-$0.004+3ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख इनपुट किंमत आउटपुट किंमत
2026-06-04 15:40 $2.041 / 1M $2.041 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी स्कोअर सुसंगतता बरोबर चाचण्या
अँटी-एआय युक्त्या 4.0 8.4
कोडिंग 5.5 10.0
संयुक्त 3.0 10.0
डेटा पार्सिंग आणि निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 3.0 10.0
Samanya Buddhimatta 5.0 10.0
सूचनांचे पालन 6.3 10.0
कोडी सोडवणे 7.7 10.0
टूल कॉलिंग 10.0 10.0

तुलना केलेली मॉडेल्स