#104

DeepSeek V3.2

DeepSeek रिलीज़: 2025-12-01 परीक्षण किया गया: 2026-05-08 15:31 deepseek/deepseek-v3.2::none

(medium) (none)

सारांश

DeepSeek V3.2 AI BENCHY पर 5.7 स्कोर करता है और #104 पर है। इसकी reliability 10.0, pass rate 49.1%, कुल लागत $0.016, और औसत response time 13.43s है।

DeepSeek V3.2 को अलग क्या बनाता है: यह संयुक्त में सबसे अलग दिखता है, जहाँ इसकी रैंक #3 है; जबकि कोडिंग इसकी सबसे कमजोर जगह है, जहाँ यह #16 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

5.7

संगति

7.9

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.016

कुल आउटपुट टोकन

7,194

कुल इनपुट टोकन

इनपुट कीमत

$0.252 / 1M

आउटपुट कीमत

$0.378 / 1M

सही परीक्षण

गलत टेस्ट: 12

प्रति प्रयास पास दर: 49.1%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

13.43s

प्रतिक्रिया समय (अधिकतम): 115.89s

प्रतिक्रिया समय (कुल): 255.10s

गलत उत्तर: 8 अतिरिक्त फॉर्मेटिंग: 2 निर्देशों का पालन नहीं किया: 1 अमान्य टूल कॉल: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#104 DeepSeek V3.2

none

लागत: $0.002
समय: 7.0s
टोकन: 1,046 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:15 नया टेस्ट जोड़ा गया	5.0	10.0	$0.054 ↑	तुलना करें
2026-06-04 14:22 नया टेस्ट जोड़ा गया	5.2	10.0	$0.017 ↓	तुलना करें
2026-05-22 00:35 सूट बदला गया	5.6	10.0	$0.018	तुलना करें
2026-05-08 15:31 सूट बदला गया	5.7	10.0	$0.016	वर्तमान रन
2026-04-20 17:48 पहला दर्ज रन	6.1	लागू नहीं	$0.016	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-08 15:31 · सूट बदला गया	5.7	7.9	10.0	7/19	5	7,194	$0.016	13.43s
2026-04-20 17:48 · पहला दर्ज रन	6.1	8.1	लागू नहीं	7/18	4	8,384	$0.016	12.09s
अंतर	-0.5	-0.2		0	+1	-1190	-$0.001	+1340ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

DeepSeek V3.2nonevsQwen3.6 27Bnone DeepSeek V3.2nonevsMiMo-V2.5-Pronone DeepSeek V3.2nonevsGLM 5.1none DeepSeek V3.2nonevsKimi K2.5none DeepSeek V3.2nonevsDeepSeek V4 Flashnone DeepSeek V3.2nonevsGemma 4 26B A4Bnoneनिःशुल्क उपलब्ध DeepSeek V3.2nonevsGemini 3 Flash Previewmedium DeepSeek V3.2nonevsGemini 3.5 Flashhigh DeepSeek V3.2nonevsNemotron 3 Ultramediumनिःशुल्क उपलब्ध DeepSeek V3.2nonevsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.3	8.2
कोडिंग	2.4	1.3
संयुक्त	6.5	10.0
डेटा पार्सिंग और निष्कर्षण	6.3	5.8
डोमेन-विशिष्ट	3.0	6.9
Samanya Buddhimatta	7.6	10.0
निर्देश पालन	10.0	10.0
पहेली समाधान	7.5	7.7
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

DeepSeek V3.2

Hamster playing table tennis

#104 DeepSeek V3.2

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल