#45

GPT-5.2

OpenAI प्रकाशन: 2025-12-11 चाचणी तारीख: 2026-04-11 01:44 openai/gpt-5.2::medium

सारांश

GPT-5.2 AI BENCHY वर 7.5 स्कोर करते आणि #45 वर आहे. याची reliability लागू नाही, pass rate 72.2%, एकूण खर्च $0.352, आणि सरासरी response time 14.04s आहे.

GPT-5.2 खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर टूल कॉलिंग हा सर्वात कमकुवत भाग आहे, rank #17.

स्कोअर

7.5

सुसंगतता

8.1

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.352

एकूण आउटपुट टोकन्स

21,682

एकूण इनपुट टोकन्स

इनपुट किंमत

$1.750 / 1M

आउटपुट किंमत

$14.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 7

प्रति प्रयत्न पास दर: 72.2%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

14.04s

प्रतिसाद वेळ (कमाल): 77.80s

प्रतिसाद वेळ (एकूण): 154.41s

सूचनांचे पालन केले नाही: 3 चुकीचे उत्तर: 2 उत्तर नाही: 1 वेळ संपला: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#45 GPT-5.2

medium

खर्च: $0.047
वेळ: 49.2s
टोकन्स: 3,396 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 13:45 नवीन चाचणी जोडली	7.5	10.0	$0.548	तुलना करा
2026-05-22 00:19 पुन्हा चाचणी	7.4	10.0	$0.490	तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन	7.5	लागू नाही	$0.352	सध्याची रन

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-5.2mediumvsStep 3.7 Flashmedium GPT-5.2mediumvsGPT-5.2 Chatnone GPT-5.2mediumvsDeepSeek V4 Flashhigh GPT-5.2mediumvsSeed-2.0-Litemedium GPT-5.2mediumvsGemini 2.5 Flashmedium GPT-5.2mediumvsGemini 3.5 Flashhigh GPT-5.2mediumvsGemini 3 Flash Previewmedium GPT-5.2mediumvsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध GPT-5.2mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	6.5	8.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.9	7.2
Samanya Buddhimatta	3.7	9.7
सूचनांचे पालन	9.9	10.0
कोडी सोडवणे	7.7	7.3
टूल कॉलिंग	4.7	1.6

GPT-5.2

Hamster playing table tennis

#45 GPT-5.2

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स