#76

Gemma 4 31B

Google प्रकाशन: 2026-04-02 चाचणी तारीख: 2026-05-22 00:30 google/gemma-4-31b-it::none

(medium) (none)

सारांश

Gemma 4 31B AI BENCHY वर 6.7 स्कोर करते आणि #76 वर आहे. याची reliability 10.0, pass rate 50.0%, एकूण खर्च $0.003, आणि सरासरी response time 3.84s आहे.

Gemma 4 31B खास का आहे: हे Samanya Buddhimatta मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर सूचनांचे पालन हा सर्वात कमकुवत भाग आहे, rank #12. या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

स्कोअर

6.7

सुसंगतता

10.0

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.003

एकूण आउटपुट टोकन्स

1,398

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.120 / 1M

आउटपुट किंमत

$0.370 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 10

प्रति प्रयत्न पास दर: 50.0%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

3.84s

प्रतिसाद वेळ (कमाल): 26.13s

प्रतिसाद वेळ (एकूण): 69.13s

चुकीचे उत्तर: 7 API त्रुटी: 2 सूचनांचे पालन केले नाही: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#76 Gemma 4 31B

none

खर्च: $0.001
वेळ: 12.8s
टोकन्स: 795 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 14:04 नवीन चाचणी जोडली	6.5	10.0	$0.004 ↓	तुलना करा
2026-05-22 00:30 सूट बदलला	6.7	10.0	$0.003	सध्याची रन
2026-04-14 00:56 पहिली नोंदलेली रन	6.9	लागू नाही	$0.003	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	6.5	10.0
कोडिंग	6.8	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	7.7	10.0
Samanya Buddhimatta	10.0	10.0
सूचनांचे पालन	6.5	10.0
कोडी सोडवणे	6.5	10.0
टूल कॉलिंग	3.0	10.0
सामान्य ज्ञान	3.0	10.0

Gemma 4 31B

Hamster playing table tennis

#76 Gemma 4 31B

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स