AI BENCHY
Advertise here

#81

GLM 5.1

Z.ai रिलीज़: 2026-04-07 परीक्षण किया गया: 2026-04-22 12:55 z-ai/glm-5.1::none
(medium) (none)

संगति

8.2

विश्वसनीयता

लागू नहीं

कुल आउटपुट टोकन

3,720

???? ???

$1.050 / 1M

????? ???

$3.500 / 1M

सही परीक्षण

गलत टेस्ट: 13

प्रति प्रयास पास दर: 37.0%

अस्थिर टेस्ट

4

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

4.33s

प्रतिक्रिया समय (अधिकतम): 32.57s

प्रतिक्रिया समय (कुल): 78.02s

रन इतिहास

परीक्षण किया गया स्कोर विश्वसनीयता सही परीक्षण कुल लागत तुलना करें
2026-05-21 23:41 सूट बदला गया 5.6 10.0 $0.057 तुलना करें
2026-05-08 13:04 सूट बदला गया 5.7 10.0 $0.053 तुलना करें
2026-05-08 13:04 सूट बदला गया 5.7 10.0 $0.053 तुलना करें
2026-04-22 12:55 पहला दर्ज रन 5.6 लागू नहीं $0.053 वर्तमान रन

रन तुलना

रनस्कोरसंगतिविश्वसनीयतासही परीक्षणअस्थिर टेस्टकुल आउटपुट टोकनकुल लागतप्रतिक्रिया समय (औसत)
2026-04-22 12:55 · पहला दर्ज रन5.68.2लागू नहीं5/1843,720$0.0534.33s
2026-05-08 13:04 · सूट बदला गया5.78.010.06/1953,731$0.0534.23s
अंतर-0.1+0.2-1-1-11-$0.001+105ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी स्कोर संगति सही परीक्षण
एंटी-एआई ट्रिक्स 4.0 6.3
कोडिंग 5.1 9.1
संयुक्त 2.8 2.1
डेटा पार्सिंग और निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 2.9 7.2
Samanya Buddhimatta 5.0 10.0
निर्देश पालन 8.3 10.0
पहेली समाधान 5.7 10.0
टूल कॉलिंग 10.0 10.0

तुलना किए गए मॉडल