AI BENCHY
Advertise here
#81

gpt-oss-120b

OpenAI प्रकाशन: 2025-08-05 चाचणी तारीख: 2026-06-04 13:44 openai/gpt-oss-120b::medium
(medium) (none)

सारांश

gpt-oss-120b AI BENCHY वर 6.7 स्कोर करते आणि #81 वर आहे. याची reliability 10.0, pass rate 52.4%, एकूण खर्च $0.011, आणि सरासरी response time 22.28s आहे.

gpt-oss-120b खास का आहे: या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

सुसंगतता

8.0

एकूण खर्च (सध्याची किंमत)

$0.011 ↓ -20.5%

या किमतीवर चाचणी केली: $0.013

एकूण आउटपुट टोकन्स

70,246

एकूण इनपुट टोकन्स

39,084

इनपुट किंमत

$0.030 / 1M

आउटपुट किंमत

$0.150 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 12

प्रति प्रयत्न पास दर: 52.4%

अस्थिर चाचण्या

5

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

22.28s

प्रतिसाद वेळ (कमाल): 68.16s

प्रतिसाद वेळ (एकूण): 311.96s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#81 gpt-oss-120b

medium
खर्च
$0.001
वेळ
26.7s
टोकन्स
555 tok

रन इतिहास

चाचणी तारीख स्कोअर विश्वसनीयता बरोबर चाचण्या एकूण खर्च तुलना करा
2026-06-04 13:44 नवीन चाचणी जोडली 6.1 10.0 $0.013 सध्याची रन
2026-05-22 00:18 सूट बदलला 5.6 10.0 $0.012 तुलना करा
2026-04-21 12:42 पहिली नोंदलेली रन 5.8 लागू नाही $0.011 तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रनस्कोअरसुसंगतताविश्वसनीयताबरोबर चाचण्याअस्थिर चाचण्याएकूण आउटपुट टोकन्सएकूण इनपुट टोकन्सएकूण खर्चप्रतिसाद वेळ (सरासरी)
2026-06-04 13:44 · सध्याची रन6.78.010.09/21570,24639,084$0.01122.28s
2026-04-21 12:42 · पहिली नोंदलेली रन5.87.2लागू नाही7/18650,3720$0.01116.08s
फरक+0.8+0.8+2-1+19874+39084-$0.001+6203ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख इनपुट किंमत आउटपुट किंमत
2026-06-04 15:40 $0.039 / 1M $0.180 / 1M
2026-06-29 01:00 $0.030 / 1M $0.150 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी स्कोअर सुसंगतता बरोबर चाचण्या
अँटी-एआय युक्त्या 6.7 9.9
कोडिंग 5.9 7.0
संयुक्त 10.0 10.0
डेटा पार्सिंग आणि निष्कर्षण 6.4 5.9
डोमेन-विशिष्ट 2.9 4.4
Samanya Buddhimatta 4.3 10.0
सूचनांचे पालन 9.9 10.0
कोडी सोडवणे 5.3 7.2
टूल कॉलिंग 9.8 10.0
सामान्य ज्ञान 3.0 10.0

तुलना केलेली मॉडेल्स