#59

DeepSeek V3.2

DeepSeek प्रकाशन: 2025-12-01 चाचणी तारीख: 2026-05-08 15:27 deepseek/deepseek-v3.2::medium

(medium) (none)

सारांश

DeepSeek V3.2 AI BENCHY वर 7.2 स्कोर करते आणि #59 वर आहे. याची reliability 10.0, pass rate 72.8%, एकूण खर्च $0.031, आणि सरासरी response time 46.06s आहे.

DeepSeek V3.2 खास का आहे: हे संयुक्त मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर कोडिंग हा सर्वात कमकुवत भाग आहे, rank #18. या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

स्कोअर

7.2

सुसंगतता

7.5

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.031

एकूण आउटपुट टोकन्स

60,800

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.252 / 1M

आउटपुट किंमत

$0.378 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 8

प्रति प्रयत्न पास दर: 72.8%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

46.06s

प्रतिसाद वेळ (कमाल): 180.92s

प्रतिसाद वेळ (एकूण): 875.23s

चुकीचे उत्तर: 4 सूचनांचे पालन केले नाही: 2 वेळ संपला: 2

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#59 DeepSeek V3.2

medium

खर्च: $0.001
वेळ: 53.6s
टोकन्स: 1,932 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 23:13 नवीन चाचणी जोडली	7.0	10.0	$0.078 ↑	तुलना करा
2026-06-04 14:41 नवीन चाचणी जोडली	7.0	10.0	$0.044 ↓	तुलना करा
2026-05-22 00:46 सूट बदलला	7.0	9.1	$0.037	तुलना करा
2026-05-08 15:27 सूट बदलला	7.2	10.0	$0.031	सध्याची रन
2026-04-20 17:48 पहिली नोंदलेली रन	8.0	लागू नाही	$0.029	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-08 15:27 · सूट बदलला	7.2	7.5	10.0	11/19	6	60,800	$0.031	46.06s
2026-04-20 17:48 · पहिली नोंदलेली रन	8.0	8.2	लागू नाही	12/18	4	59,131	$0.029	46.41s
फरक	-0.8	-0.7		-1	+2	+1669	+$0.002	-342ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

DeepSeek V3.2mediumvsGLM 5.1medium DeepSeek V3.2mediumvsGrok 4.3medium DeepSeek V3.2mediumvsKimi K2.5medium DeepSeek V3.2mediumvsQwen3.5-122B-A10Bmedium DeepSeek V3.2mediumvsMercury 2medium DeepSeek V3.2mediumvsGemini 3 Flash Previewmedium DeepSeek V3.2mediumvsGemini 3.5 Flashhigh DeepSeek V3.2mediumvsNemotron 3 Ultramediumमोफत उपलब्ध DeepSeek V3.2mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	9.2	10.0
कोडिंग	4.7	1.6
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	2.9	4.4
Samanya Buddhimatta	3.8	2.5
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	6.7	5.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

DeepSeek V3.2

Hamster playing table tennis

#59 DeepSeek V3.2

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स