#31

DeepSeek V3.2

DeepSeek रिलीज़: 2025-12-01 परीक्षण किया गया: 2026-04-20 17:48 deepseek/deepseek-v3.2::medium

(medium) (none)

सारांश

DeepSeek V3.2 AI BENCHY पर 8.0 स्कोर करता है और #31 पर है। इसकी reliability लागू नहीं, pass rate 79.6%, कुल लागत $0.029, और औसत response time 46.41s है।

DeepSeek V3.2 को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

8.0

संगति

8.2

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.029

कुल आउटपुट टोकन

59,131

कुल इनपुट टोकन

इनपुट कीमत

$0.252 / 1M

आउटपुट कीमत

$0.378 / 1M

सही परीक्षण

गलत टेस्ट: 6

प्रति प्रयास पास दर: 79.6%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

46.41s

प्रतिक्रिया समय (अधिकतम): 180.92s

प्रतिक्रिया समय (कुल): 835.33s

गलत उत्तर: 3 समय समाप्त: 2 निर्देशों का पालन नहीं किया: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#31 DeepSeek V3.2

medium

लागत: $0.001
समय: 53.6s
टोकन: 1,932 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:13 नया टेस्ट जोड़ा गया	7.0	10.0	$0.078 ↑	तुलना करें
2026-06-04 14:41 नया टेस्ट जोड़ा गया	7.0	10.0	$0.044 ↓	तुलना करें
2026-05-22 00:46 सूट बदला गया	7.0	9.1	$0.037	तुलना करें
2026-05-08 15:27 सूट बदला गया	7.2	10.0	$0.031	तुलना करें
2026-04-20 17:48 पहला दर्ज रन	8.0	लागू नहीं	$0.029	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-20 17:48 · पहला दर्ज रन	8.0	8.2	लागू नहीं	12/18	4	59,131	$0.029	46.41s
2026-05-08 15:27 · सूट बदला गया	7.2	7.5	10.0	11/19	6	60,800	$0.031	46.06s
अंतर	+0.8	+0.7		+1	-2	-1669	-$0.002	+342ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

DeepSeek V3.2mediumvsGLM 5.1medium DeepSeek V3.2mediumvsGrok 4.3medium DeepSeek V3.2mediumvsKimi K2.5medium DeepSeek V3.2mediumvsQwen3.5-122B-A10Bmedium DeepSeek V3.2mediumvsMercury 2medium DeepSeek V3.2mediumvsGemini 3 Flash Previewmedium DeepSeek V3.2mediumvsGemini 3.5 Flashhigh DeepSeek V3.2mediumvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध DeepSeek V3.2mediumvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	8.4	9.9
कोडिंग	4.7	1.6
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	5.4	2.5
निर्देश पालन	10.0	10.0
पहेली समाधान	8.2	7.2
टूल कॉलिंग	10.0	10.0

DeepSeek V3.2

Hamster playing table tennis

#31 DeepSeek V3.2

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल