#65

GPT-5.4 Mini

OpenAI प्रकाशन: 2026-03-17 चाचणी तारीख: 2026-05-22 00:21 openai/gpt-5.4-mini::medium

(medium) (none)

सारांश

GPT-5.4 Mini AI BENCHY वर 7.1 स्कोर करते आणि #65 वर आहे. याची reliability 10.0, pass rate 68.3%, एकूण खर्च $0.487, आणि सरासरी response time 22.14s आहे.

GPT-5.4 Mini खास का आहे: हे संयुक्त मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर सूचनांचे पालन हा सर्वात कमकुवत भाग आहे, rank #15.

स्कोअर

7.1

सुसंगतता

7.6

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.487

एकूण आउटपुट टोकन्स

102,892

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.750 / 1M

आउटपुट किंमत

$4.500 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 10

प्रति प्रयत्न पास दर: 68.3%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

22.14s

प्रतिसाद वेळ (कमाल): 138.75s

प्रतिसाद वेळ (एकूण): 442.74s

चुकीचे उत्तर: 6 सूचनांचे पालन केले नाही: 4

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#65 GPT-5.4 Mini

medium

खर्च: $0.056
वेळ: 95.5s
टोकन्स: 12,464 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:38 नवीन चाचणी जोडली	7.5	10.0	$0.756	तुलना करा
2026-06-04 13:47 नवीन चाचणी जोडली	7.5	10.0	$0.526	तुलना करा
2026-05-22 00:21 सूट बदलला	7.1	10.0	$0.487	सध्याची रन
2026-04-11 01:44 पहिली नोंदलेली रन	7.3	लागू नाही	$0.299	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-5.4 MinimediumvsGPT-5.6 Terralow GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15medium GPT-5.4 MinimediumvsGPT-5.3 Chatnone GPT-5.4 MinimediumvsQwen3.5-27Bmedium GPT-5.4 MinimediumvsGPT-5.4 Nanomedium GPT-5.4 MinimediumvsQwen3.7 Maxnone GPT-5.4 MinimediumvsKimi K2.7 Codemedium GPT-5.4 MinimediumvsLongCat 2.0medium GPT-5.4 MinimediumvsClaude Opus 5none GPT-5.4 MinimediumvsGemini 3 Flash Previewlow

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.6	7.9
कोडिंग	7.5	6.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	4.1	4.4
Samanya Buddhimatta	4.5	10.0
सूचनांचे पालन	7.4	6.7
कोडी सोडवणे	7.8	10.0
टूल कॉलिंग	4.7	1.6
सामान्य ज्ञान	3.0	10.0

GPT-5.4 Mini

Hamster playing table tennis

#65 GPT-5.4 Mini

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स