#183

gpt-oss-120b

OpenAI रिलीज़: 2025-08-05 परीक्षण किया गया: 2026-05-08 15:31 openai/gpt-oss-120b::none

(medium) (none)

सारांश

gpt-oss-120b AI BENCHY पर 4.0 स्कोर करता है और #183 पर है। इसकी reliability 10.0, pass rate 34.9%, कुल लागत $0.010, और औसत response time 21.61s है।

gpt-oss-120b को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

4.0

संगति

8.2

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.010 ↓ -4.2%

परीक्षण के समय: $0.011

कुल आउटपुट टोकन

51,664

कुल इनपुट टोकन

9,081

इनपुट कीमत

$0.036 / 1M

आउटपुट कीमत

$0.180 / 1M

सही परीक्षण

गलत टेस्ट: 13

प्रति प्रयास पास दर: 34.9%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

21.61s

प्रतिक्रिया समय (अधिकतम): 113.71s

प्रतिक्रिया समय (कुल): 345.79s

गलत उत्तर: 8 API त्रुटि: 3 निर्देशों का पालन नहीं किया: 2

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	सही परीक्षण	कुल लागत	तुलना करें
2026-05-08 15:31 सूट बदला गया	5.4	10.0		$0.010 ↓	वर्तमान रन
2026-04-21 12:42 पहला दर्ज रन	5.2	लागू नहीं		$0.009	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख	इनपुट कीमत	आउटपुट कीमत
2026-06-04 15:40	$0.039 / 1M	$0.180 / 1M
2026-06-29 01:00	$0.030 / 1M	$0.150 / 1M
2026-07-09 20:59	$0.036 / 1M	$0.180 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	6.5	10.0
कोडिंग	1.5	4.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	6.5	10.0
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	4.8	10.0
निर्देश पालन	9.8	10.0
पहेली समाधान	6.0	7.2
टूल कॉलिंग	3.0	10.0
सामान्य ज्ञान	3.0	10.0

gpt-oss-120b

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल