AI BENCHY
Advertise here
#112

gpt-oss-120b

OpenAI प्रकाशन: 2025-08-05 चाचणी तारीख: 2026-05-22 00:18 openai/gpt-oss-120b::medium
(medium) (none)

सारांश

gpt-oss-120b AI BENCHY वर 5.6 स्कोर करते आणि #112 वर आहे. याची reliability 10.0, pass rate 46.7%, एकूण खर्च $0.012, आणि सरासरी response time 20.89s आहे.

gpt-oss-120b खास का आहे: हे संयुक्त मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर डेटा पार्सिंग आणि निष्कर्षण हा सर्वात कमकुवत भाग आहे, rank #11. या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे. हे असामान्यपणे जास्त reasoning tokens वापरते, ज्यामुळे runs हळू किंवा महाग होऊ शकतात.

सुसंगतता

7.5

एकूण आउटपुट टोकन्स

63,919

एकूण इनपुट टोकन्स

0

इनपुट किंमत

$0.000 / 1M

आउटपुट किंमत

$0.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 13

प्रति प्रयत्न पास दर: 46.7%

अस्थिर चाचण्या

6

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

20.89s

प्रतिसाद वेळ (कमाल): 68.16s

प्रतिसाद वेळ (एकूण): 271.54s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#112 gpt-oss-120b

medium
खर्च
$0.001
वेळ
26.7s
टोकन्स
555 tok

रन इतिहास

चाचणी तारीख स्कोअर विश्वसनीयता बरोबर चाचण्या एकूण खर्च तुलना करा
2026-06-04 13:44 नवीन चाचणी जोडली 6.1 10.0 $0.013 तुलना करा
2026-05-22 00:18 सूट बदलला 5.6 10.0 $0.012 सध्याची रन
2026-04-21 12:42 पहिली नोंदलेली रन 5.8 लागू नाही $0.011 तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रनस्कोअरसुसंगतताविश्वसनीयताबरोबर चाचण्याअस्थिर चाचण्याएकूण आउटपुट टोकन्सएकूण इनपुट टोकन्सएकूण खर्चप्रतिसाद वेळ (सरासरी)
2026-05-22 00:18 · सूट बदलला5.67.510.07/20663,9190$0.01220.89s
2026-04-21 12:42 · पहिली नोंदलेली रन5.87.2लागू नाही7/18650,3720$0.01116.08s
फरक-0.3+0.300+135470+$0.002+4808ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी स्कोअर सुसंगतता बरोबर चाचण्या
अँटी-एआय युक्त्या 6.7 9.9
कोडिंग 3.9 5.6
संयुक्त 10.0 10.0
डेटा पार्सिंग आणि निष्कर्षण 6.4 5.9
डोमेन-विशिष्ट 2.9 4.4
Samanya Buddhimatta 4.3 10.0
सूचनांचे पालन 9.9 10.0
कोडी सोडवणे 3.2 4.7
टूल कॉलिंग 9.8 10.0
सामान्य ज्ञान 3.0 10.0

तुलना केलेली मॉडेल्स