AI BENCHY
Advertise here
#62

GPT-5 Nano

OpenAI प्रकाशन: 2025-08-07 चाचणी तारीख: 2026-04-11 01:44 openai/gpt-5-nano::medium

सारांश

GPT-5 Nano AI BENCHY वर 6.3 स्कोर करते आणि #62 वर आहे. याची reliability लागू नाही, pass rate 59.3%, एकूण खर्च $0.066, आणि सरासरी response time 44.13s आहे.

GPT-5 Nano खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #3 आहे; तर डेटा पार्सिंग आणि निष्कर्षण हा सर्वात कमकुवत भाग आहे, rank #15.

सुसंगतता

6.5

विश्वसनीयता

लागू नाही

एकूण आउटपुट टोकन्स

161,268

एकूण इनपुट टोकन्स

0

इनपुट किंमत

$0.050 / 1M

आउटपुट किंमत

$0.400 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 11

प्रति प्रयत्न पास दर: 59.3%

अस्थिर चाचण्या

8

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

44.13s

प्रतिसाद वेळ (कमाल): 204.02s

प्रतिसाद वेळ (एकूण): 485.47s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#62 GPT-5 Nano

medium
खर्च
$0.006
वेळ
108.5s
टोकन्स
13,209 tok

रन इतिहास

चाचणी तारीख स्कोअर विश्वसनीयता बरोबर चाचण्या एकूण खर्च तुलना करा
2026-06-04 13:44 नवीन चाचणी जोडली 6.3 10.0 $0.081 तुलना करा
2026-05-22 00:17 सूट बदलला 6.1 10.0 $0.076 तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन 6.3 लागू नाही $0.066 सध्याची रन

रन तुलना

रनस्कोअरसुसंगतताविश्वसनीयताबरोबर चाचण्याअस्थिर चाचण्याएकूण आउटपुट टोकन्सएकूण इनपुट टोकन्सएकूण खर्चप्रतिसाद वेळ (सरासरी)
2026-04-11 01:44 · पहिली नोंदलेली रन6.36.5लागू नाही7/188161,2680$0.06644.13s
2026-05-22 00:17 · सूट बदलला6.17.110.08/207184,9220$0.07643.11s
फरक+0.2-0.6-1+1-236540-$0.010+1022ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी स्कोअर सुसंगतता बरोबर चाचण्या
अँटी-एआय युक्त्या 6.5 7.9
कोडिंग 6.7 3.5
संयुक्त 10.0 10.0
डेटा पार्सिंग आणि निष्कर्षण 3.7 1.7
डोमेन-विशिष्ट 5.2 4.4
Samanya Buddhimatta 4.1 10.0
सूचनांचे पालन 8.5 6.8
कोडी सोडवणे 5.3 7.2
टूल कॉलिंग 10.0 10.0

तुलना केलेली मॉडेल्स