AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com
#30

GPT-5.4 Mini

OpenAI प्रकाशन: 2026-03-17 चाचणी तारीख: 2026-06-04 13:47 openai/gpt-5.4-mini::medium
(medium) (none)

सारांश

GPT-5.4 Mini AI BENCHY वर 8.0 स्कोर करते आणि #30 वर आहे. याची reliability 10.0, pass rate 73.0%, एकूण खर्च $0.526, आणि सरासरी response time 22.34s आहे.

GPT-5.4 Mini खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #4 आहे; तर टूल कॉलिंग हा सर्वात कमकुवत भाग आहे, rank #16.

सुसंगतता

8.0

एकूण आउटपुट टोकन्स

111,118

एकूण इनपुट टोकन्स

34,116

इनपुट किंमत

$0.750 / 1M

आउटपुट किंमत

$4.500 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 9

प्रति प्रयत्न पास दर: 73.0%

अस्थिर चाचण्या

5

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

22.34s

प्रतिसाद वेळ (कमाल): 138.75s

प्रतिसाद वेळ (एकूण): 469.20s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 GPT-5.4 Mini

medium
Cost
$0.056
Time
95.5s
Tokens
12,464 tok

रन इतिहास

चाचणी तारीख स्कोअर विश्वसनीयता बरोबर चाचण्या एकूण खर्च तुलना करा
2026-06-04 13:47 नवीन चाचणी जोडली 7.5 10.0 $0.526 सध्याची रन
2026-05-22 00:21 सूट बदलला 7.1 10.0 $0.487 तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन 7.3 लागू नाही $0.299 तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रनस्कोअरसुसंगतताविश्वसनीयताबरोबर चाचण्याअस्थिर चाचण्याएकूण आउटपुट टोकन्सएकूण इनपुट टोकन्सएकूण खर्चप्रतिसाद वेळ (सरासरी)
2026-06-04 13:47 · सध्याची रन8.08.010.012/215111,11834,116$0.52622.34s
2026-05-22 00:21 · सूट बदलला7.17.610.010/206102,8920$0.48722.14s
फरक+0.9+0.40.0+2-1+8226+34116+$0.039+206ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख इनपुट किंमत आउटपुट किंमत
2026-06-04 15:40 $0.750 / 1M $4.500 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी स्कोअर सुसंगतता बरोबर चाचण्या
अँटी-एआय युक्त्या 8.6 7.9
कोडिंग 8.4 7.4
संयुक्त 10.0 10.0
डेटा पार्सिंग आणि निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 4.1 4.4
Samanya Buddhimatta 4.5 10.0
सूचनांचे पालन 9.8 10.0
कोडी सोडवणे 7.8 10.0
टूल कॉलिंग 4.7 1.6
सामान्य ज्ञान 3.0 10.0

तुलना केलेली मॉडेल्स