#68
X AI
रिलीज़: 2026-03-31
परीक्षण किया गया: 2026-05-08 15:32
x-ai/grok-4.20::medium
(medium)
(none)
पहचान नोट
Grok 4.20 Beta, Grok 4.20 का प्रीव्यू संस्करण था।
???? ???
$1.250 / 1M
????? ???
$2.500 / 1M
अस्थिर टेस्ट
4
अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।
रन इतिहास
| परीक्षण किया गया | स्कोर | विश्वसनीयता | सही परीक्षण | कुल लागत | तुलना करें |
|---|---|---|---|---|---|
| 2026-05-08 15:32 सूट बदला गया | 6.9 | 10.0 | $0.756 | वर्तमान रन | |
| 2026-04-11 01:44 पहला दर्ज रन | 7.0 | लागू नहीं | $0.743 | तुलना करें |
इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।
रन तुलना
| रन | स्कोर | संगति | विश्वसनीयता | सही परीक्षण | अस्थिर टेस्ट | कुल आउटपुट टोकन | कुल लागत | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|---|
| 2026-05-08 15:32 · वर्तमान रन | 6.9 | 8.3 | 10.0 | 10/19 | 4 | 130,017 | $0.756 | 14.53s |
| 2026-04-11 01:44 · पहला दर्ज रन | 7.0 | 7.8 | लागू नहीं | 9/18 | 5 | 111,626 | $0.743 | 10.33s |
| अंतर | -0.1 | +0.5 | +1 | -1 | +18391 | +$0.014 | +4203ms |
इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।
चार्ट
पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।
स्कोर vs कुल लागत
प्रतिक्रिया समय (औसत)
स्कोर vs प्रतिक्रिया समय (औसत)
कुल आउटपुट टोकन
स्कोर vs कुल आउटपुट टोकन
त्वरित तुलना
Grok 4.20mediumvsRing 2.6 1tnoneनिःशुल्क उपलब्धGrok 4.20mediumvsQwen3.5-35B-A3BmediumGrok 4.20mediumvsMiMo-V2-FlashmediumGrok 4.20mediumvsGPT-5.2mediumGrok 4.20mediumvsRing 2.6 1tmediumनिःशुल्क उपलब्धGrok 4.20mediumvsDeepSeek V3.2mediumGrok 4.20mediumvsGemini 3 Flash PreviewmediumGrok 4.20mediumvsGemini 3.1 Pro Previewmedium
श्रेणी विवरण
| श्रेणी | स्कोर | संगति | सही परीक्षण |
|---|---|---|---|
| एंटी-एआई ट्रिक्स | 8.2 | 7.9 | |
| कोडिंग | 4.3 | 1.1 | |
| संयुक्त | 10.0 | 10.0 | |
| डेटा पार्सिंग और निष्कर्षण | 10.0 | 10.0 | |
| डोमेन-विशिष्ट | 5.3 | 10.0 | |
| Samanya Buddhimatta | 3.9 | 2.6 | |
| निर्देश पालन | 7.3 | 6.0 | |
| पहेली समाधान | 7.7 | 10.0 | |
| टूल कॉलिंग | 3.0 | 10.0 | |
| सामान्य ज्ञान | 3.0 | 10.0 |