???? ???
$1.050 / 1M
????? ???
$3.500 / 1M
अस्थिर टेस्ट
3
अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।
रन इतिहास
| परीक्षण किया गया | स्कोर | विश्वसनीयता | सही परीक्षण | कुल लागत | तुलना करें |
|---|---|---|---|---|---|
| 2026-05-21 23:46 सूट बदला गया | 7.4 | 3.3 | $0.286 | तुलना करें | |
| 2026-05-08 14:41 सूट बदला गया | 7.6 | 0.0 | $0.209 | तुलना करें | |
| 2026-05-08 14:41 सूट बदला गया | 7.6 | 0.0 | $0.209 | तुलना करें | |
| 2026-04-22 12:55 पहला दर्ज रन | 7.8 | लागू नहीं | $0.201 | वर्तमान रन |
रन तुलना
| रन | स्कोर | संगति | विश्वसनीयता | सही परीक्षण | अस्थिर टेस्ट | कुल आउटपुट टोकन | कुल लागत | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|---|
| 2026-04-22 12:55 · पहला दर्ज रन | 7.8 | 8.6 | लागू नहीं | 12/18 | 3 | 57,095 | $0.201 | 24.13s |
| 2026-05-21 23:46 · सूट बदला गया | 7.4 | 8.3 | 3.3 | 12/20 | 4 | 83,351 | $0.286 | 32.22s |
| अंतर | +0.4 | +0.3 | 0 | -1 | -26256 | -$0.085 | -8091ms |
इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।
चार्ट
पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।
स्कोर vs कुल लागत
प्रतिक्रिया समय (औसत)
स्कोर vs प्रतिक्रिया समय (औसत)
कुल आउटपुट टोकन
स्कोर vs कुल आउटपुट टोकन
त्वरित तुलना
GLM 5.1mediumvsGemini 3.1 Flash Lite PreviewlowGLM 5.1mediumvsGPT-5.2 ChatnoneGLM 5.1mediumvsMiMo-V2.5-PromediumGLM 5.1mediumvsMiMo-V2-PromediumGLM 5.1mediumvsGemini 3 Flash PreviewnoneGLM 5.1mediumvsGrok Build 0.1mediumGLM 5.1mediumvsGemini 3 Flash PreviewmediumGLM 5.1mediumvsGemini 3.5 FlashhighGLM 5.1mediumvsRing-2.6-1TmediumGLM 5.1mediumvsGemini 3.5 Flashlow
श्रेणी विवरण
| श्रेणी | स्कोर | संगति | सही परीक्षण |
|---|---|---|---|
| एंटी-एआई ट्रिक्स | 10.0 | 10.0 | |
| कोडिंग | 4.7 | 1.6 | |
| संयुक्त | 9.5 | 10.0 | |
| डेटा पार्सिंग और निष्कर्षण | 10.0 | 10.0 | |
| डोमेन-विशिष्ट | 5.3 | 10.0 | |
| Samanya Buddhimatta | 10.0 | 10.0 | |
| निर्देश पालन | 6.4 | 5.8 | |
| पहेली समाधान | 8.2 | 7.2 | |
| टूल कॉलिंग | 3.0 | 10.0 |