#112

DeepSeek V4 Pro

DeepSeek रिलीज़: 2026-04-24 परीक्षण किया गया: 2026-04-24 09:19 deepseek/deepseek-v4-pro::none

(high) (none)

सारांश

DeepSeek V4 Pro AI BENCHY पर 3.1 स्कोर करता है और #112 पर है। इसकी reliability लागू नहीं, pass rate 11.1%, कुल लागत $0.009, और औसत response time 44.40s है।

DeepSeek V4 Pro को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

3.1

संगति

7.2

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.009

कुल आउटपुट टोकन

591

कुल इनपुट टोकन

इनपुट कीमत

$1.740 / 1M

आउटपुट कीमत

$3.480 / 1M

सही परीक्षण

गलत टेस्ट: 18

प्रति प्रयास पास दर: 11.1%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

44.40s

प्रतिक्रिया समय (अधिकतम): 125.71s

प्रतिक्रिया समय (कुल): 577.18s

API त्रुटि: 16 निर्देशों का पालन नहीं किया: 1 गलत उत्तर: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#112 DeepSeek V4 Pro

none

अमान्य SVG

लागत: $0.000
समय: 300.0s
टोकन: 0 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:18 नया टेस्ट जोड़ा गया	6.9	10.0	$0.096	तुलना करें
2026-06-16 15:17 दोबारा परीक्षण	7.2	9.9	$0.034	तुलना करें
2026-06-16 14:39 सूट बदला गया	7.2	9.9	$0.030	तुलना करें
2026-06-04 14:24 नया टेस्ट जोड़ा गया	5.7	8.5	$0.025 ↓	तुलना करें
2026-05-22 00:38 सूट बदला गया	6.0	8.1	$0.046	तुलना करें
2026-04-29 14:46 दोबारा परीक्षण	6.2	7.9	$0.043	तुलना करें
2026-04-24 09:19 पहला रन	3.1	लागू नहीं	$0.009	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-24 09:19 · पहला रन	3.1	7.2	लागू नहीं	0/18	6	591	$0.009	44.40s
2026-05-22 00:38 · सूट बदला गया	6.0	8.9	8.1	8/20	3	5,347	$0.046	13.48s
अंतर	-2.9	-1.7		-8	+3	-4756	-$0.037	+30920ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

DeepSeek V4 PrononevsKAT-Coder-Pro V2.5medium DeepSeek V4 PrononevsGPT-5.6 Solnone DeepSeek V4 PrononevsSeed-2.0-Minimedium DeepSeek V4 PrononevsMiMo-V2.5-Promedium DeepSeek V4 PrononevsGemini 3.5 Flashnone DeepSeek V4 PrononevsQwen3.6 Flashmedium DeepSeek V4 PrononevsMercury 2medium DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsKimi K2.5medium DeepSeek V4 PrononevsGPT-5.5none

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.1	10.0
कोडिंग	2.8	1.6
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	2.8	1.6
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	3.4	9.6
निर्देश पालन	3.3	6.1
पहेली समाधान	3.6	4.3
टूल कॉलिंग	3.0	10.0

DeepSeek V4 Pro

Hamster playing table tennis

#112 DeepSeek V4 Pro

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल