#37

DeepSeek V4 Flash

DeepSeek रिलीज़: 2026-04-24 परीक्षण किया गया: 2026-04-25 21:41 deepseek/deepseek-v4-flash::high

(high) (none)

सारांश

DeepSeek V4 Flash AI BENCHY पर 7.8 स्कोर करता है और #37 पर है। इसकी reliability लागू नहीं, pass rate 79.6%, कुल लागत $0.031, और औसत response time 45.41s है।

DeepSeek V4 Flash को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि पहेली समाधान इसकी सबसे कमजोर जगह है, जहाँ यह #15 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

7.8

संगति

7.8

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.031

कुल आउटपुट टोकन

92,064

कुल इनपुट टोकन

इनपुट कीमत

$0.140 / 1M

आउटपुट कीमत

$0.280 / 1M

सही परीक्षण

गलत टेस्ट: 7

प्रति प्रयास पास दर: 79.6%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

45.41s

प्रतिक्रिया समय (अधिकतम): 218.13s

प्रतिक्रिया समय (कुल): 817.30s

गलत उत्तर: 4 निर्देशों का पालन नहीं किया: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#37 DeepSeek V4 Flash

high

लागत: $0.003
समय: 93.1s
टोकन: 7,926 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:17 नया टेस्ट जोड़ा गया	7.7	10.0	$0.042 ↓	तुलना करें
2026-06-04 14:24 दोबारा परीक्षण	7.7	10.0	$0.029 ↓	तुलना करें
2026-06-04 13:02 नया टेस्ट जोड़ा गया	7.7	10.0	$0.028 ↓	तुलना करें
2026-05-22 00:39 सूट बदला गया	7.4	10.0	$0.038	तुलना करें
2026-04-25 21:41 दोबारा परीक्षण	7.8	लागू नहीं	$0.031	वर्तमान रन
2026-04-24 09:19 पहला रन	7.8	लागू नहीं	$0.019	तुलना करें

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-25 21:41 · दोबारा परीक्षण	7.8	7.8	लागू नहीं	11/18	5	92,064	0	$0.031	45.41s
2026-06-04 13:02 · नया टेस्ट जोड़ा गया	7.7	8.5	10.0	13/21	4	128,045	38,019	$0.028	44.95s
अंतर	+0.1	-0.7		-2	+1	-35981	-38019	+$0.004	+452ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

DeepSeek V4 FlashhighvsGPT-5.6 Lunahigh DeepSeek V4 FlashhighvsDeepSeek V4 Prohigh DeepSeek V4 FlashhighvsClaude Opus 4.6medium DeepSeek V4 FlashhighvsMiniMax M3medium DeepSeek V4 FlashhighvsGLM 5medium DeepSeek V4 FlashhighvsGrok Build 0.1medium DeepSeek V4 FlashhighvsClaude Opus 4.8low DeepSeek V4 FlashhighvsGPT-5.6 Lunamedium DeepSeek V4 FlashhighvsClaude Sonnet 4.6medium DeepSeek V4 FlashhighvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	8.3	10.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	4.1	4.4
Samanya Buddhimatta	6.1	3.1
निर्देश पालन	10.0	10.0
पहेली समाधान	6.4	4.5
टूल कॉलिंग	10.0	10.0

DeepSeek V4 Flash

Hamster playing table tennis

#37 DeepSeek V4 Flash

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल