#73

gpt-oss-120b

OpenAI प्रकाशन: 2025-08-05 चाचणी तारीख: 2026-04-21 12:42 openai/gpt-oss-120b::medium

(medium) (none)

सारांश

gpt-oss-120b AI BENCHY वर 5.8 स्कोर करते आणि #73 वर आहे. याची reliability लागू नाही, pass rate 51.9%, एकूण खर्च $0.011, आणि सरासरी response time 16.08s आहे.

gpt-oss-120b खास का आहे: या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

स्कोअर

5.8

सुसंगतता

7.2

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.011

एकूण आउटपुट टोकन्स

50,372

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.000 / 1M

आउटपुट किंमत

$0.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 11

प्रति प्रयत्न पास दर: 51.9%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

16.08s

प्रतिसाद वेळ (कमाल): 50.92s

प्रतिसाद वेळ (एकूण): 176.88s

चुकीचे उत्तर: 7 सूचनांचे पालन केले नाही: 4

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#73 gpt-oss-120b

medium

खर्च: $0.001
वेळ: 26.7s
टोकन्स: 555 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 13:44 नवीन चाचणी जोडली	6.1	10.0	$0.013 ↓	तुलना करा
2026-05-22 00:18 सूट बदलला	5.6	10.0	$0.012	तुलना करा
2026-04-21 12:42 पहिली नोंदलेली रन	5.8	लागू नाही	$0.011	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-21 12:42 · पहिली नोंदलेली रन	5.8	7.2	लागू नाही	7/18	6	50,372	0	$0.011	16.08s
2026-06-04 13:44 · नवीन चाचणी जोडली	6.1	8.0	10.0	9/21	5	70,246	39,084	$0.013	22.28s
फरक	-0.3	-0.8		-2	+1	-19874	-39084	-$0.003	-6203ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	6.7	9.9
कोडिंग	4.3	1.1
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	6.4	5.9
डोमेन-विशिष्ट	2.9	4.4
Samanya Buddhimatta	4.3	10.0
सूचनांचे पालन	9.9	10.0
कोडी सोडवणे	3.2	4.7
टूल कॉलिंग	9.8	10.0

gpt-oss-120b

Hamster playing table tennis

#73 gpt-oss-120b

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स