ओळख नोंद
Grok 4.20 Beta हे Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.
???? ???
$2.000 / 1M
????? ???
$6.000 / 1M
अस्थिर चाचण्या
5
अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).
रन इतिहास
| चाचणी तारीख | स्कोअर | विश्वसनीयता | बरोबर चाचण्या | एकूण खर्च | तुलना करा |
|---|---|---|---|---|---|
| 2026-05-08 15:32 सूट बदलला | 6.9 | 10.0 | $0.756 | तुलना करा | |
| 2026-04-11 01:44 पहिली नोंदलेली रन | 7.0 | लागू नाही | $0.743 | सध्याची रन |
रन तुलना
| रन | स्कोअर | सुसंगतता | विश्वसनीयता | बरोबर चाचण्या | अस्थिर चाचण्या | एकूण आउटपुट टोकन्स | एकूण खर्च | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|---|---|
| 2026-04-11 01:44 · पहिली नोंदलेली रन | 7.0 | 7.8 | लागू नाही | 9/18 | 5 | 111,626 | $0.743 | 10.33s |
| 2026-05-08 15:32 · सूट बदलला | 6.9 | 8.3 | 10.0 | 10/19 | 4 | 130,017 | $0.756 | 14.53s |
| फरक | +0.1 | -0.5 | -1 | +1 | -18391 | -$0.014 | -4203ms |
या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.
चार्ट्स
पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.
स्कोअर vs एकूण खर्च
प्रतिसाद वेळ (सरासरी)
स्कोअर vs प्रतिसाद वेळ (सरासरी)
एकूण आउटपुट टोकन्स
स्कोअर vs एकूण आउटपुट टोकन्स
झटपट तुलना
Grok 4.20mediumvsRing 2.6 1tnoneमोफत उपलब्धGrok 4.20mediumvsQwen3.5-35B-A3BmediumGrok 4.20mediumvsMiMo-V2-FlashmediumGrok 4.20mediumvsGPT-5.2mediumGrok 4.20mediumvsRing 2.6 1tmediumमोफत उपलब्धGrok 4.20mediumvsDeepSeek V3.2mediumGrok 4.20mediumvsGemini 3 Flash PreviewmediumGrok 4.20mediumvsGemini 3.1 Pro Previewmedium
श्रेणीवार तपशील
| श्रेणी | स्कोअर | सुसंगतता | बरोबर चाचण्या |
|---|---|---|---|
| अँटी-एआय युक्त्या | 8.2 | 7.9 | |
| कोडिंग | 4.3 | 1.1 | |
| संयुक्त | 10.0 | 10.0 | |
| डेटा पार्सिंग आणि निष्कर्षण | 10.0 | 10.0 | |
| डोमेन-विशिष्ट | 5.3 | 10.0 | |
| Samanya Buddhimatta | 5.8 | 2.8 | |
| सूचनांचे पालन | 7.3 | 5.9 | |
| कोडी सोडवणे | 6.4 | 7.7 | |
| टूल कॉलिंग | 3.0 | 10.0 |