#183

gpt-oss-120b

OpenAI रिलीज़: 2025-08-05 परीक्षण किया गया: 2026-05-08 15:31 openai/gpt-oss-120b::none

(medium) (none)

सारांश

gpt-oss-120b AI BENCHY पर 4.0 स्कोर करता है और #183 पर है। इसकी reliability 10.0, pass rate 34.9%, कुल लागत $0.010, और औसत response time 21.61s है।

gpt-oss-120b को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

4.0

संगति

8.2

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.010 ↓ -4.2%

परीक्षण के समय: $0.011

कुल आउटपुट टोकन

51,664

कुल इनपुट टोकन

9,081

इनपुट कीमत

$0.036 / 1M

आउटपुट कीमत

$0.180 / 1M

सही परीक्षण

गलत टेस्ट: 13

प्रति प्रयास पास दर: 34.9%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

21.61s

प्रतिक्रिया समय (अधिकतम): 113.71s

प्रतिक्रिया समय (कुल): 345.79s

गलत उत्तर: 8 API त्रुटि: 3 निर्देशों का पालन नहीं किया: 2

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	सही परीक्षण	कुल लागत	तुलना करें
2026-05-08 15:31 सूट बदला गया	5.4	10.0		$0.010 ↓	वर्तमान रन
2026-04-21 12:42 पहला दर्ज रन	5.2	लागू नहीं		$0.009	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-08 15:31 · वर्तमान रन	4.0	8.2	10.0	6/19	2	51,664	9,081	$0.010	21.61s
2026-04-21 12:42 · पहला दर्ज रन	5.2	7.9	लागू नहीं	4/18	5	44,652	0	$0.009	11.96s
अंतर	-1.2	+0.3		+2	-3	+7012	+9081	+$0.001	+9656ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख	इनपुट कीमत	आउटपुट कीमत
2026-06-04 15:40	$0.039 / 1M	$0.180 / 1M
2026-06-29 01:00	$0.030 / 1M	$0.150 / 1M
2026-07-09 20:59	$0.036 / 1M	$0.180 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	6.5	10.0
कोडिंग	1.5	4.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	6.5	10.0
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	4.8	10.0
निर्देश पालन	9.8	10.0
पहेली समाधान	6.0	7.2
टूल कॉलिंग	3.0	10.0
सामान्य ज्ञान	3.0	10.0

gpt-oss-120b

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल