???? ???
$1.050 / 1M
????? ???
$3.500 / 1M
अस्थिर चाचण्या
3
अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).
रन इतिहास
| चाचणी तारीख | स्कोअर | विश्वसनीयता | बरोबर चाचण्या | एकूण खर्च | तुलना करा |
|---|---|---|---|---|---|
| 2026-05-21 23:46 सूट बदलला | 7.4 | 3.3 | $0.286 | तुलना करा | |
| 2026-05-08 14:41 सूट बदलला | 7.6 | 0.0 | $0.209 | तुलना करा | |
| 2026-05-08 14:41 सूट बदलला | 7.6 | 0.0 | $0.209 | तुलना करा | |
| 2026-04-22 12:55 पहिली नोंदलेली रन | 7.8 | लागू नाही | $0.201 | सध्याची रन |
रन तुलना
| रन | स्कोअर | सुसंगतता | विश्वसनीयता | बरोबर चाचण्या | अस्थिर चाचण्या | एकूण आउटपुट टोकन्स | एकूण खर्च | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|---|---|
| 2026-04-22 12:55 · पहिली नोंदलेली रन | 7.8 | 8.6 | लागू नाही | 12/18 | 3 | 57,095 | $0.201 | 24.13s |
| 2026-05-08 14:41 · सूट बदलला | 7.6 | 8.7 | 0.0 | 12/19 | 3 | 59,356 | $0.209 | 24.43s |
| फरक | +0.2 | -0.1 | 0 | 0 | -2261 | -$0.009 | -293ms |
या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.
चार्ट्स
पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.
स्कोअर vs एकूण खर्च
प्रतिसाद वेळ (सरासरी)
स्कोअर vs प्रतिसाद वेळ (सरासरी)
एकूण आउटपुट टोकन्स
स्कोअर vs एकूण आउटपुट टोकन्स
झटपट तुलना
GLM 5.1mediumvsGemini 3.1 Flash Lite PreviewlowGLM 5.1mediumvsGPT-5.2 ChatnoneGLM 5.1mediumvsMiMo-V2.5-PromediumGLM 5.1mediumvsMiMo-V2-PromediumGLM 5.1mediumvsGemini 3 Flash PreviewnoneGLM 5.1mediumvsGrok Build 0.1mediumGLM 5.1mediumvsGemini 3 Flash PreviewmediumGLM 5.1mediumvsGemini 3.5 FlashhighGLM 5.1mediumvsRing-2.6-1TmediumGLM 5.1mediumvsGemini 3.5 Flashlow
श्रेणीवार तपशील
| श्रेणी | स्कोअर | सुसंगतता | बरोबर चाचण्या |
|---|---|---|---|
| अँटी-एआय युक्त्या | 10.0 | 10.0 | |
| कोडिंग | 4.7 | 1.6 | |
| संयुक्त | 9.5 | 10.0 | |
| डेटा पार्सिंग आणि निष्कर्षण | 10.0 | 10.0 | |
| डोमेन-विशिष्ट | 5.3 | 10.0 | |
| Samanya Buddhimatta | 10.0 | 10.0 | |
| सूचनांचे पालन | 6.4 | 5.8 | |
| कोडी सोडवणे | 8.2 | 7.2 | |
| टूल कॉलिंग | 3.0 | 10.0 |