#57

GPT-5.2

OpenAI प्रकाशन: 2025-12-11 चाचणी तारीख: 2026-05-22 00:19 openai/gpt-5.2::medium

सारांश

GPT-5.2 AI BENCHY वर 7.4 स्कोर करते आणि #57 वर आहे. याची reliability 10.0, pass rate 70.0%, एकूण खर्च $0.490, आणि सरासरी response time 16.44s आहे.

GPT-5.2 खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर Samanya Buddhimatta हा सर्वात कमकुवत भाग आहे, rank #13.

स्कोअर

7.4

सुसंगतता

8.3

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.490

एकूण आउटपुट टोकन्स

31,057

एकूण इनपुट टोकन्स

इनपुट किंमत

$1.750 / 1M

आउटपुट किंमत

$14.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 8

प्रति प्रयत्न पास दर: 70.0%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

16.44s

प्रतिसाद वेळ (कमाल): 77.80s

प्रतिसाद वेळ (एकूण): 213.77s

सूचनांचे पालन केले नाही: 3 चुकीचे उत्तर: 3 उत्तर नाही: 1 वेळ संपला: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#57 GPT-5.2

medium

खर्च: $0.047
वेळ: 49.2s
टोकन्स: 3,396 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 13:45 नवीन चाचणी जोडली	7.5	10.0	$0.548	तुलना करा
2026-05-22 00:19 पुन्हा चाचणी	7.4	10.0	$0.490	सध्याची रन
2026-04-11 01:44 पहिली नोंदलेली रन	7.5	लागू नाही	$0.352	तुलना करा

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-5.2mediumvsStep 3.7 Flashmedium GPT-5.2mediumvsGPT-5.2 Chatnone GPT-5.2mediumvsDeepSeek V4 Flashhigh GPT-5.2mediumvsSeed-2.0-Litemedium GPT-5.2mediumvsGemini 2.5 Flashmedium GPT-5.2mediumvsGemini 3.5 Flashhigh GPT-5.2mediumvsGemini 3 Flash Previewmedium GPT-5.2mediumvsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध GPT-5.2mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	6.5	8.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.9	7.2
Samanya Buddhimatta	3.7	9.7
सूचनांचे पालन	9.9	10.0
कोडी सोडवणे	7.6	7.3
टूल कॉलिंग	4.7	1.6
सामान्य ज्ञान	3.0	10.0

GPT-5.2

Hamster playing table tennis

#57 GPT-5.2

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स