#104

DeepSeek V3.2

DeepSeek प्रकाशन: 2025-12-01 चाचणी तारीख: 2026-05-08 15:31 deepseek/deepseek-v3.2::none

(medium) (none)

सारांश

DeepSeek V3.2 AI BENCHY वर 5.7 स्कोर करते आणि #104 वर आहे. याची reliability 10.0, pass rate 49.1%, एकूण खर्च $0.016, आणि सरासरी response time 13.43s आहे.

DeepSeek V3.2 खास का आहे: हे संयुक्त मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #3 आहे; तर कोडिंग हा सर्वात कमकुवत भाग आहे, rank #16. या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

स्कोअर

5.7

सुसंगतता

7.9

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.016

एकूण आउटपुट टोकन्स

7,194

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.252 / 1M

आउटपुट किंमत

$0.378 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 12

प्रति प्रयत्न पास दर: 49.1%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

13.43s

प्रतिसाद वेळ (कमाल): 115.89s

प्रतिसाद वेळ (एकूण): 255.10s

चुकीचे उत्तर: 8 अतिरिक्त फॉरमॅटिंग: 2 सूचनांचे पालन केले नाही: 1 अवैध टूल कॉल: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#104 DeepSeek V3.2

none

खर्च: $0.002
वेळ: 7.0s
टोकन्स: 1,046 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 23:15 नवीन चाचणी जोडली	5.0	10.0	$0.054 ↑	तुलना करा
2026-06-04 14:22 नवीन चाचणी जोडली	5.2	10.0	$0.017 ↓	तुलना करा
2026-05-22 00:35 सूट बदलला	5.6	10.0	$0.018	तुलना करा
2026-05-08 15:31 सूट बदलला	5.7	10.0	$0.016	सध्याची रन
2026-04-20 17:48 पहिली नोंदलेली रन	6.1	लागू नाही	$0.016	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-08 15:31 · सूट बदलला	5.7	7.9	10.0	7/19	5	7,194	$0.016	13.43s
2026-04-20 17:48 · पहिली नोंदलेली रन	6.1	8.1	लागू नाही	7/18	4	8,384	$0.016	12.09s
फरक	-0.5	-0.2		0	+1	-1190	-$0.001	+1340ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

DeepSeek V3.2nonevsQwen3.6 27Bnone DeepSeek V3.2nonevsMiMo-V2.5-Pronone DeepSeek V3.2nonevsGLM 5.1none DeepSeek V3.2nonevsKimi K2.5none DeepSeek V3.2nonevsDeepSeek V4 Flashnone DeepSeek V3.2nonevsGemma 4 26B A4Bnoneमोफत उपलब्ध DeepSeek V3.2nonevsGemini 3 Flash Previewmedium DeepSeek V3.2nonevsGemini 3.5 Flashhigh DeepSeek V3.2nonevsNemotron 3 Ultramediumमोफत उपलब्ध DeepSeek V3.2nonevsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	3.3	8.2
कोडिंग	2.4	1.3
संयुक्त	6.5	10.0
डेटा पार्सिंग आणि निष्कर्षण	6.3	5.8
डोमेन-विशिष्ट	3.0	6.9
Samanya Buddhimatta	7.6	10.0
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	7.5	7.7
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

DeepSeek V3.2

Hamster playing table tennis

#104 DeepSeek V3.2

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स