#52
X AI
रिलीज़: 2026-03-31
परीक्षण किया गया: 2026-04-11 01:44
x-ai/grok-4.20::medium
(medium)
(none)
पहचान नोट
Grok 4.20 Beta, Grok 4.20 का प्रीव्यू संस्करण था।
???? ???
$2.000 / 1M
????? ???
$6.000 / 1M
अस्थिर टेस्ट
5
अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।
रन इतिहास
| परीक्षण किया गया | स्कोर | विश्वसनीयता | सही परीक्षण | कुल लागत | तुलना करें |
|---|---|---|---|---|---|
| 2026-05-08 15:32 सूट बदला गया | 6.9 | 10.0 | $0.756 | तुलना करें | |
| 2026-04-11 01:44 पहला दर्ज रन | 7.0 | लागू नहीं | $0.743 | वर्तमान रन |
रन तुलना
| रन | स्कोर | संगति | विश्वसनीयता | सही परीक्षण | अस्थिर टेस्ट | कुल आउटपुट टोकन | कुल लागत | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|---|
| 2026-04-11 01:44 · पहला दर्ज रन | 7.0 | 7.8 | लागू नहीं | 9/18 | 5 | 111,626 | $0.743 | 10.33s |
| 2026-05-08 15:32 · सूट बदला गया | 6.9 | 8.3 | 10.0 | 10/19 | 4 | 130,017 | $0.756 | 14.53s |
| अंतर | +0.1 | -0.5 | -1 | +1 | -18391 | -$0.014 | -4203ms |
इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।
चार्ट
पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।
स्कोर vs कुल लागत
प्रतिक्रिया समय (औसत)
स्कोर vs प्रतिक्रिया समय (औसत)
कुल आउटपुट टोकन
स्कोर vs कुल आउटपुट टोकन
त्वरित तुलना
Grok 4.20mediumvsRing 2.6 1tnoneनिःशुल्क उपलब्धGrok 4.20mediumvsQwen3.5-35B-A3BmediumGrok 4.20mediumvsMiMo-V2-FlashmediumGrok 4.20mediumvsGPT-5.2mediumGrok 4.20mediumvsRing 2.6 1tmediumनिःशुल्क उपलब्धGrok 4.20mediumvsDeepSeek V3.2mediumGrok 4.20mediumvsGemini 3 Flash PreviewmediumGrok 4.20mediumvsGemini 3.1 Pro Previewmedium
श्रेणी विवरण
| श्रेणी | स्कोर | संगति | सही परीक्षण |
|---|---|---|---|
| एंटी-एआई ट्रिक्स | 8.2 | 7.9 | |
| कोडिंग | 4.3 | 1.1 | |
| संयुक्त | 10.0 | 10.0 | |
| डेटा पार्सिंग और निष्कर्षण | 10.0 | 10.0 | |
| डोमेन-विशिष्ट | 5.3 | 10.0 | |
| Samanya Buddhimatta | 5.8 | 2.8 | |
| निर्देश पालन | 7.3 | 5.9 | |
| पहेली समाधान | 6.4 | 7.7 | |
| टूल कॉलिंग | 3.0 | 10.0 |