#55 xAI: Grok 4.20
medium- खर्च
- $0.041
- वेळ
- 110.3s
- टोकन्स
- 16,336 tok
सारांश
Grok 4.20 AI BENCHY वर 7.3 स्कोर करते आणि #55 वर आहे. याची reliability 10.0, pass rate 63.5%, एकूण खर्च $0.609, आणि सरासरी response time 27.68s आहे.
Grok 4.20 खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर टूल कॉलिंग हा सर्वात कमकुवत भाग आहे, rank #14. हे असामान्यपणे जास्त reasoning tokens वापरते, ज्यामुळे runs हळू किंवा महाग होऊ शकतात.
ओळख नोंद
Grok 4.20 Beta हे Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.
7.3
सुसंगतता
8.8
10.0
एकूण आउटपुट टोकन्स
221,343
एकूण इनपुट टोकन्स
44,433
इनपुट किंमत
$1.250 / 1M
आउटपुट किंमत
$2.500 / 1M
अस्थिर चाचण्या
3
अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).
जनरेशन शोकेस
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
रन इतिहास
| चाचणी तारीख | स्कोअर | विश्वसनीयता | बरोबर चाचण्या | एकूण खर्च | तुलना करा |
|---|---|---|---|---|---|
| 2026-06-04 14:17 नवीन चाचणी जोडली | 7.1 | 10.0 | $0.609 ↓ | सध्याची रन | |
| 2026-05-22 00:32 सूट बदलला | 6.7 | 10.0 | $0.832 | तुलना करा | |
| 2026-05-08 15:32 सूट बदलला | 6.9 | 10.0 | $0.756 | तुलना करा | |
| 2026-04-11 01:44 पहिली नोंदलेली रन | 7.0 | लागू नाही | $0.743 | तुलना करा |
या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.
रन तुलना
| रन | स्कोअर | सुसंगतता | विश्वसनीयता | बरोबर चाचण्या | अस्थिर चाचण्या | एकूण आउटपुट टोकन्स | एकूण इनपुट टोकन्स | एकूण खर्च | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|---|---|---|
| 2026-06-04 14:17 · सध्याची रन | 7.3 | 8.8 | 10.0 | 12/21 | 3 | 221,343 | 44,433 | $0.609 | 27.68s |
| 2026-05-08 15:32 · सूट बदलला | 6.9 | 8.3 | 10.0 | 10/19 | 4 | 130,017 | 0 | $0.756 | 14.53s |
| फरक | +0.5 | +0.5 | 0.0 | +2 | -1 | +91326 | +44433 | -$0.147 | +13150ms |
या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.
किंमत इतिहास
OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.
| तारीख | इनपुट किंमत | आउटपुट किंमत |
|---|---|---|
| 2026-06-04 15:40 | $1.250 / 1M | $2.500 / 1M |
पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.
| श्रेणी | स्कोअर | सुसंगतता | बरोबर चाचण्या |
|---|---|---|---|
| अँटी-एआय युक्त्या | 8.2 | 7.9 | |
| कोडिंग | 6.3 | 6.6 | |
| संयुक्त | 10.0 | 10.0 | |
| डेटा पार्सिंग आणि निष्कर्षण | 10.0 | 10.0 | |
| डोमेन-विशिष्ट | 5.3 | 10.0 | |
| Samanya Buddhimatta | 3.9 | 2.6 | |
| सूचनांचे पालन | 9.8 | 10.0 | |
| कोडी सोडवणे | 7.7 | 10.0 | |
| टूल कॉलिंग | 3.0 | 10.0 | |
| सामान्य ज्ञान | 3.0 | 10.0 |