#50

GPT-5 Mini

OpenAI रिलीज़: 2025-08-07 परीक्षण किया गया: 2026-04-11 01:44 openai/gpt-5-mini::medium

सारांश

GPT-5 Mini AI BENCHY पर 7.0 स्कोर करता है और #50 पर है। इसकी reliability लागू नहीं, pass rate 61.1%, कुल लागत $0.128, और औसत response time 23.98s है।

GPT-5 Mini को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि निर्देश पालन इसकी सबसे कमजोर जगह है, जहाँ यह #16 पर है।

स्कोर

7.0

संगति

8.6

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.128

कुल आउटपुट टोकन

59,861

कुल इनपुट टोकन

इनपुट कीमत

$0.250 / 1M

आउटपुट कीमत

$2.000 / 1M

सही परीक्षण

गलत टेस्ट: 9

प्रति प्रयास पास दर: 61.1%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

23.98s

प्रतिक्रिया समय (अधिकतम): 88.15s

प्रतिक्रिया समय (कुल): 431.56s

निर्देशों का पालन नहीं किया: 4 गलत उत्तर: 4 समय समाप्त: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#50 GPT-5 Mini

medium

लागत: $0.007
समय: 42.9s
टोकन: 3,432 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:27 नया टेस्ट जोड़ा गया	8.1	10.0	$0.237	तुलना करें
2026-06-04 13:43 नया टेस्ट जोड़ा गया	7.3	10.0	$0.159	तुलना करें
2026-05-22 00:16 दोबारा परीक्षण	6.9	10.0	$0.150	तुलना करें
2026-04-11 01:44 पहला दर्ज रन	7.0	लागू नहीं	$0.128	वर्तमान रन

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

GPT-5 MinimediumvsGemini 2.5 Flashmedium GPT-5 MinimediumvsMuse Spark 1.1high GPT-5 MinimediumvsMuse Spark 1.1low GPT-5 MinimediumvsStep 3.7 Flashmedium GPT-5 MinimediumvsClaude Sonnet 5medium GPT-5 MinimediumvsGPT-5.2 Chatnone GPT-5 MinimediumvsGemini 3 Flash Previewmedium GPT-5 MinimediumvsGemini 3.5 Flashhigh GPT-5 MinimediumvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध GPT-5 MinimediumvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	7.1	7.6
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	3.6	7.2
Samanya Buddhimatta	4.5	10.0
निर्देश पालन	8.0	6.6
पहेली समाधान	5.6	9.8
टूल कॉलिंग	10.0	10.0

GPT-5 Mini

Hamster playing table tennis

#50 GPT-5 Mini

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल