#136

GPT-5.4 Mini

OpenAI रिलीज़: 2026-03-17 परीक्षण किया गया: 2026-05-22 00:18 openai/gpt-5.4-mini::none

(medium) (none)

सारांश

GPT-5.4 Mini AI BENCHY पर 4.9 स्कोर करता है और #136 पर है। इसकी reliability 10.0, pass rate 31.7%, कुल लागत $0.035, और औसत response time 1.16s है।

GPT-5.4 Mini को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि निर्देश पालन इसकी सबसे कमजोर जगह है, जहाँ यह #14 पर है। यह समान मॉडलों की तुलना में काफ़ी तेज है।

स्कोर

4.9

संगति

8.8

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.035

कुल आउटपुट टोकन

2,496

कुल इनपुट टोकन

इनपुट कीमत

$0.750 / 1M

आउटपुट कीमत

$4.500 / 1M

सही परीक्षण

गलत टेस्ट: 15

प्रति प्रयास पास दर: 31.7%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

1.16s

प्रतिक्रिया समय (अधिकतम): 2.52s

प्रतिक्रिया समय (कुल): 23.16s

गलत उत्तर: 12 निर्देशों का पालन नहीं किया: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#136 GPT-5.4 Mini

none

लागत: $0.010
समय: 11.7s
टोकन: 2,151 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:33 नया टेस्ट जोड़ा गया	5.9	10.0	$0.095	तुलना करें
2026-06-04 13:45 नया टेस्ट जोड़ा गया	4.9	10.0	$0.038	तुलना करें
2026-05-22 00:18 सूट बदला गया	4.9	10.0	$0.035	वर्तमान रन
2026-04-11 01:44 पहला दर्ज रन	5.1	लागू नहीं	$0.032	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-22 00:18 · सूट बदला गया	4.9	8.8	10.0	5/20	3	2,496	$0.035	1.16s
2026-04-11 01:44 · पहला दर्ज रन	5.1	8.6	लागू नहीं	5/18	3	2,418	$0.032	1.17s
अंतर	-0.2	+0.2		0	0	+78	+$0.004	-9ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

GPT-5.4 MininonevsTrinity Large Thinkingmedium GPT-5.4 MininonevsNorth Mini Codemediumनिःशुल्क उपलब्ध GPT-5.4 MininonevsGPT-5.6 Terranone GPT-5.4 MininonevsKimi K2.6none GPT-5.4 MininonevsStep 3.5 Flashmedium GPT-5.4 MininonevsGPT-5.4none GPT-5.4 MininonevsTrinity Large Thinkinglow GPT-5.4 MininonevsNemotron 3 Supermediumनिःशुल्क उपलब्ध GPT-5.4 MininonevsNemotron 3 Ultranoneनिःशुल्क उपलब्ध GPT-5.4 MininonevsGLM 5none

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.1	8.1
कोडिंग	6.8	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	3.5	4.4
Samanya Buddhimatta	4.8	10.0
निर्देश पालन	6.3	10.0
पहेली समाधान	5.4	10.0
टूल कॉलिंग	3.0	10.0
सामान्य ज्ञान	3.0	10.0

GPT-5.4 Mini

Hamster playing table tennis

#136 GPT-5.4 Mini

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल