#78

DeepSeek V4 Pro

DeepSeek रिलीज़: 2026-04-24 परीक्षण किया गया: 2026-04-29 14:46 deepseek/deepseek-v4-pro::none

(high) (none)

सारांश

DeepSeek V4 Pro AI BENCHY पर 6.2 स्कोर करता है और #78 पर है। इसकी reliability 7.9, pass rate 48.2%, कुल लागत $0.043, और औसत response time 14.01s है।

DeepSeek V4 Pro को अलग क्या बनाता है: यह डोमेन-विशिष्ट में सबसे अलग दिखता है, जहाँ इसकी रैंक #2 है; जबकि एंटी-एआई ट्रिक्स इसकी सबसे कमजोर जगह है, जहाँ यह #17 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

6.2

संगति

8.7

विश्वसनीयता

7.9

कुल लागत (वर्तमान कीमत)

$0.043

कुल आउटपुट टोकन

3,903

कुल इनपुट टोकन

इनपुट कीमत

$0.435 / 1M

आउटपुट कीमत

$0.870 / 1M

सही परीक्षण

गलत टेस्ट: 11

प्रति प्रयास पास दर: 48.2%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

14.01s

प्रतिक्रिया समय (अधिकतम): 58.65s

प्रतिक्रिया समय (कुल): 252.12s

गलत उत्तर: 7 निर्देशों का पालन नहीं किया: 3 अतिरिक्त फॉर्मेटिंग: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#78 DeepSeek V4 Pro

none

अमान्य SVG

लागत: $0.000
समय: 300.0s
टोकन: 0 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:18 नया टेस्ट जोड़ा गया	6.9	10.0	$0.096	तुलना करें
2026-06-16 15:17 दोबारा परीक्षण	7.2	9.9	$0.034	तुलना करें
2026-06-16 14:39 सूट बदला गया	7.2	9.9	$0.030	तुलना करें
2026-06-04 14:24 नया टेस्ट जोड़ा गया	5.7	8.5	$0.025 ↓	तुलना करें
2026-05-22 00:38 सूट बदला गया	6.0	8.1	$0.046	तुलना करें
2026-04-29 14:46 दोबारा परीक्षण	6.2	7.9	$0.043	वर्तमान रन
2026-04-24 09:19 पहला रन	3.1	लागू नहीं	$0.009	तुलना करें

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-29 14:46 · दोबारा परीक्षण	6.2	8.7	7.9	7/18	3	3,903	$0.043	14.01s
2026-05-22 00:38 · सूट बदला गया	6.0	8.9	8.1	8/20	3	5,347	$0.046	13.48s
अंतर	+0.1	-0.2	-0.2	-1	0	-1444	-$0.004	+529ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

DeepSeek V4 PrononevsKAT-Coder-Pro V2.5medium DeepSeek V4 PrononevsGPT-5.6 Solnone DeepSeek V4 PrononevsSeed-2.0-Minimedium DeepSeek V4 PrononevsMiMo-V2.5-Promedium DeepSeek V4 PrononevsGemini 3.5 Flashnone DeepSeek V4 PrononevsQwen3.6 Flashmedium DeepSeek V4 PrononevsMercury 2medium DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsKimi K2.5medium DeepSeek V4 PrononevsGPT-5.5none

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.5	8.0
कोडिंग	7.1	3.7
संयुक्त	9.5	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	4.3	9.9
निर्देश पालन	6.3	10.0
पहेली समाधान	6.0	7.1
टूल कॉलिंग	10.0	10.0

DeepSeek V4 Pro

Hamster playing table tennis

#78 DeepSeek V4 Pro

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल