#80

DeepSeek V4 Pro

DeepSeek रिलीज़: 2026-04-24 परीक्षण किया गया: 2026-05-22 00:54 deepseek/deepseek-v4-pro::high

(high) (none)

सारांश

DeepSeek V4 Pro AI BENCHY पर 6.6 स्कोर करता है और #80 पर है। इसकी reliability 9.0, pass rate 66.7%, कुल लागत $0.212, और औसत response time 58.93s है।

DeepSeek V4 Pro को अलग क्या बनाता है: यह संयुक्त में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि कोडिंग इसकी सबसे कमजोर जगह है, जहाँ यह #18 पर है।

स्कोर

6.6

संगति

8.3

विश्वसनीयता

9.0

कुल लागत (वर्तमान कीमत)

$0.212

कुल आउटपुट टोकन

65,985

कुल इनपुट टोकन

इनपुट कीमत

$0.435 / 1M

आउटपुट कीमत

$0.870 / 1M

सही परीक्षण

गलत टेस्ट: 9

प्रति प्रयास पास दर: 66.7%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

58.93s

प्रतिक्रिया समय (अधिकतम): 358.35s

प्रतिक्रिया समय (कुल): 1119.75s

गलत उत्तर: 6 निर्देशों का पालन नहीं किया: 2 कोई उत्तर नहीं: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#80 DeepSeek V4 Pro

high

लागत: $0.023
समय: 257.6s
टोकन: 14,870 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:19 नया टेस्ट जोड़ा गया	7.7	10.0	$0.200	तुलना करें
2026-06-16 15:31 दोबारा परीक्षण	7.6	9.3	$0.157	तुलना करें
2026-06-16 14:47 सूट बदला गया	8.1	9.6	$0.098	तुलना करें
2026-06-04 14:38 नया टेस्ट जोड़ा गया	6.0	8.9	$0.079 ↓	तुलना करें
2026-05-22 00:54 सूट बदला गया	6.6	9.0	$0.212	वर्तमान रन
2026-04-29 14:47 दोबारा परीक्षण	7.5	9.3	$0.209	तुलना करें
2026-04-26 10:50 दोबारा परीक्षण	7.5	8.4	$0.201	तुलना करें
2026-04-25 21:53 पहला रन	8.2	लागू नहीं	$0.329	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-22 00:54 · सूट बदला गया	6.6	8.3	9.0	11/20	4	65,985	$0.212	58.93s
2026-04-29 14:47 · दोबारा परीक्षण	7.5	8.0	9.3	11/18	4	62,125	$0.209	60.03s
अंतर	-0.9	+0.3	-0.3	0	0	+3860	+$0.004	-1100ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

DeepSeek V4 ProhighvsDeepSeek V4 Flashhigh DeepSeek V4 ProhighvsMiniMax M3medium DeepSeek V4 ProhighvsGPT-5.6 Lunahigh DeepSeek V4 ProhighvsGrok Build 0.1medium DeepSeek V4 ProhighvsClaude Opus 4.6medium DeepSeek V4 ProhighvsGPT-5.6 Lunamedium DeepSeek V4 ProhighvsGLM 5medium DeepSeek V4 ProhighvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध DeepSeek V4 ProhighvsClaude Opus 4.8low DeepSeek V4 ProhighvsKimi K2.7 Codemedium

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	7.4	10.0
कोडिंग	2.8	5.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	8.8	10.0
डोमेन-विशिष्ट	3.0	6.9
Samanya Buddhimatta	6.1	3.1
निर्देश पालन	10.0	10.0
पहेली समाधान	7.4	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

DeepSeek V4 Pro

Hamster playing table tennis

#80 DeepSeek V4 Pro

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल