#31

DeepSeek V3.2

DeepSeek प्रकाशन: 2025-12-01 चाचणी तारीख: 2026-04-20 17:48 deepseek/deepseek-v3.2::medium

(medium) (none)

सारांश

DeepSeek V3.2 AI BENCHY वर 8.0 स्कोर करते आणि #31 वर आहे. याची reliability लागू नाही, pass rate 79.6%, एकूण खर्च $0.029, आणि सरासरी response time 46.41s आहे.

DeepSeek V3.2 खास का आहे: या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

स्कोअर

8.0

सुसंगतता

8.2

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.029

एकूण आउटपुट टोकन्स

59,131

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.252 / 1M

आउटपुट किंमत

$0.378 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 6

प्रति प्रयत्न पास दर: 79.6%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

46.41s

प्रतिसाद वेळ (कमाल): 180.92s

प्रतिसाद वेळ (एकूण): 835.33s

चुकीचे उत्तर: 3 वेळ संपला: 2 सूचनांचे पालन केले नाही: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#31 DeepSeek V3.2

medium

खर्च: $0.001
वेळ: 53.6s
टोकन्स: 1,932 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 23:13 नवीन चाचणी जोडली	7.0	10.0	$0.078 ↑	तुलना करा
2026-06-04 14:41 नवीन चाचणी जोडली	7.0	10.0	$0.044 ↓	तुलना करा
2026-05-22 00:46 सूट बदलला	7.0	9.1	$0.037	तुलना करा
2026-05-08 15:27 सूट बदलला	7.2	10.0	$0.031	तुलना करा
2026-04-20 17:48 पहिली नोंदलेली रन	8.0	लागू नाही	$0.029	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-20 17:48 · पहिली नोंदलेली रन	8.0	8.2	लागू नाही	12/18	4	59,131	$0.029	46.41s
2026-05-22 00:46 · सूट बदलला	7.0	7.6	9.1	11/20	6	75,252	$0.037	53.21s
फरक	+1.0	+0.6		+1	-2	-16121	-$0.008	-6806ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

DeepSeek V3.2mediumvsGLM 5.1medium DeepSeek V3.2mediumvsGrok 4.3medium DeepSeek V3.2mediumvsKimi K2.5medium DeepSeek V3.2mediumvsQwen3.5-122B-A10Bmedium DeepSeek V3.2mediumvsMercury 2medium DeepSeek V3.2mediumvsGemini 3 Flash Previewmedium DeepSeek V3.2mediumvsGemini 3.5 Flashhigh DeepSeek V3.2mediumvsNemotron 3 Ultramediumमोफत उपलब्ध DeepSeek V3.2mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.4	9.9
कोडिंग	4.7	1.6
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	5.4	2.5
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	8.2	7.2
टूल कॉलिंग	10.0	10.0

DeepSeek V3.2

Hamster playing table tennis

#31 DeepSeek V3.2

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स