#59

DeepSeek V3.2

DeepSeek रिलीज़: 2025-12-01 परीक्षण किया गया: 2026-05-08 15:27 deepseek/deepseek-v3.2::medium

(medium) (none)

सारांश

DeepSeek V3.2 AI BENCHY पर 7.2 स्कोर करता है और #59 पर है। इसकी reliability 10.0, pass rate 72.8%, कुल लागत $0.031, और औसत response time 46.06s है।

DeepSeek V3.2 को अलग क्या बनाता है: यह संयुक्त में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि कोडिंग इसकी सबसे कमजोर जगह है, जहाँ यह #18 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

7.2

संगति

7.5

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.031

कुल आउटपुट टोकन

60,800

कुल इनपुट टोकन

इनपुट कीमत

$0.252 / 1M

आउटपुट कीमत

$0.378 / 1M

सही परीक्षण

गलत टेस्ट: 8

प्रति प्रयास पास दर: 72.8%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

46.06s

प्रतिक्रिया समय (अधिकतम): 180.92s

प्रतिक्रिया समय (कुल): 875.23s

गलत उत्तर: 4 निर्देशों का पालन नहीं किया: 2 समय समाप्त: 2

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#59 DeepSeek V3.2

medium

लागत: $0.001
समय: 53.6s
टोकन: 1,932 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:13 नया टेस्ट जोड़ा गया	7.0	10.0	$0.078 ↑	तुलना करें
2026-06-04 14:41 नया टेस्ट जोड़ा गया	7.0	10.0	$0.044 ↓	तुलना करें
2026-05-22 00:46 सूट बदला गया	7.0	9.1	$0.037	तुलना करें
2026-05-08 15:27 सूट बदला गया	7.2	10.0	$0.031	वर्तमान रन
2026-04-20 17:48 पहला दर्ज रन	8.0	लागू नहीं	$0.029	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-08 15:27 · सूट बदला गया	7.2	7.5	10.0	11/19	6	60,800	$0.031	46.06s
2026-04-20 17:48 · पहला दर्ज रन	8.0	8.2	लागू नहीं	12/18	4	59,131	$0.029	46.41s
अंतर	-0.8	-0.7		-1	+2	+1669	+$0.002	-342ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

DeepSeek V3.2mediumvsGLM 5.1medium DeepSeek V3.2mediumvsGrok 4.3medium DeepSeek V3.2mediumvsKimi K2.5medium DeepSeek V3.2mediumvsQwen3.5-122B-A10Bmedium DeepSeek V3.2mediumvsMercury 2medium DeepSeek V3.2mediumvsGemini 3 Flash Previewmedium DeepSeek V3.2mediumvsGemini 3.5 Flashhigh DeepSeek V3.2mediumvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध DeepSeek V3.2mediumvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	9.2	10.0
कोडिंग	4.7	1.6
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	2.9	4.4
Samanya Buddhimatta	3.8	2.5
निर्देश पालन	10.0	10.0
पहेली समाधान	6.7	5.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

DeepSeek V3.2

Hamster playing table tennis

#59 DeepSeek V3.2

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल