#49

GPT-5.4 Mini

OpenAI रिलीज़: 2026-03-17 परीक्षण किया गया: 2026-04-11 01:44 openai/gpt-5.4-mini::medium

(medium) (none)

सारांश

GPT-5.4 Mini AI BENCHY पर 7.3 स्कोर करता है और #49 पर है। इसकी reliability लागू नहीं, pass rate 70.4%, कुल लागत $0.299, और औसत response time 15.22s है।

GPT-5.4 Mini को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि निर्देश पालन इसकी सबसे कमजोर जगह है, जहाँ यह #17 पर है।

स्कोर

7.3

संगति

7.4

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.299

कुल आउटपुट टोकन

61,698

कुल इनपुट टोकन

इनपुट कीमत

$0.750 / 1M

आउटपुट कीमत

$4.500 / 1M

सही परीक्षण

गलत टेस्ट: 9

प्रति प्रयास पास दर: 70.4%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

15.22s

प्रतिक्रिया समय (अधिकतम): 102.91s

प्रतिक्रिया समय (कुल): 273.90s

निर्देशों का पालन नहीं किया: 5 गलत उत्तर: 4

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#49 GPT-5.4 Mini

medium

लागत: $0.056
समय: 95.5s
टोकन: 12,464 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:38 नया टेस्ट जोड़ा गया	7.5	10.0	$0.756	तुलना करें
2026-06-04 13:47 नया टेस्ट जोड़ा गया	7.5	10.0	$0.526	तुलना करें
2026-05-22 00:21 सूट बदला गया	7.1	10.0	$0.487	तुलना करें
2026-04-11 01:44 पहला दर्ज रन	7.3	लागू नहीं	$0.299	वर्तमान रन

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

GPT-5.4 MinimediumvsGPT-5.6 Terralow GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15medium GPT-5.4 MinimediumvsGPT-5.3 Chatnone GPT-5.4 MinimediumvsQwen3.5-27Bmedium GPT-5.4 MinimediumvsGPT-5.4 Nanomedium GPT-5.4 MinimediumvsQwen3.7 Maxnone GPT-5.4 MinimediumvsKimi K2.7 Codemedium GPT-5.4 MinimediumvsLongCat 2.0medium GPT-5.4 MinimediumvsClaude Opus 5none GPT-5.4 MinimediumvsGemini 3 Flash Previewlow

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	8.6	7.9
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	4.1	4.4
Samanya Buddhimatta	4.5	10.0
निर्देश पालन	7.4	6.5
पहेली समाधान	6.8	7.9
टूल कॉलिंग	4.7	1.6

GPT-5.4 Mini

Hamster playing table tennis

#49 GPT-5.4 Mini

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल