#97

GPT-4o-mini

OpenAI प्रकाशन: 2024-07-18 चाचणी तारीख: 2026-04-11 01:19 openai/gpt-4o-mini::none

सारांश

GPT-4o-mini AI BENCHY वर 4.9 स्कोर करते आणि #97 वर आहे. याची reliability लागू नाही, pass rate 22.2%, एकूण खर्च $0.005, आणि सरासरी response time 2.00s आहे.

स्कोअर

4.9

सुसंगतता

9.9

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.005

एकूण आउटपुट टोकन्स

1,947

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.150 / 1M

आउटपुट किंमत

$0.600 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 14

प्रति प्रयत्न पास दर: 22.2%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

2.00s

प्रतिसाद वेळ (कमाल): 7.58s

प्रतिसाद वेळ (एकूण): 21.99s

चुकीचे उत्तर: 13 सूचनांचे पालन केले नाही: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#97 GPT-4o-mini

none

खर्च: $0.001
वेळ: 6.6s
टोकन्स: 742 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 13:04 नवीन चाचणी जोडली	4.8	10.0	$0.006	तुलना करा
2026-05-21 23:41 सूट बदलला	4.9	10.0	$0.006	तुलना करा
2026-04-11 01:19 पहिली नोंदलेली रन	4.9	लागू नाही	$0.005	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-11 01:19 · पहिली नोंदलेली रन	4.9	9.9	लागू नाही	4/18	1,947	0	$0.005	2.00s
2026-06-04 13:04 · नवीन चाचणी जोडली	4.8	9.9	10.0	5/21	1,982	31,518	$0.006	1.77s
फरक	+0.1	0.0		-1	-35	-31518	-$0.002	+228ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-4o-mininonevsDeepSeek V4 Flashnone GPT-4o-mininonevsClaude Sonnet 5none GPT-4o-mininonevsKimi K2.5none GPT-4o-mininonevsMiMo-V2.5-Pronone GPT-4o-mininonevsGemini 3.5 Flashhigh GPT-4o-mininonevsGemini 3 Flash Previewmedium GPT-4o-mininonevsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध GPT-4o-mininonevsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	4.8	10.0
कोडिंग	3.0	8.7
संयुक्त	3.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	4.0	10.0
सूचनांचे पालन	4.8	10.0
कोडी सोडवणे	3.7	10.0
टूल कॉलिंग	10.0	10.0

GPT-4o-mini

Hamster playing table tennis

#97 GPT-4o-mini

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स