#112

DeepSeek V4 Pro

DeepSeek প্রকাশ: 2026-04-24 পরীক্ষিত হয়েছে: 2026-04-24 09:19 deepseek/deepseek-v4-pro::none

(high) (none)

সারাংশ

DeepSeek V4 Pro AI BENCHY-তে 3.1 স্কোর করে এবং #112 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 11.1%, মোট খরচ $0.009, এবং গড় response time 44.40s.

DeepSeek V4 Pro কে আলাদা করে যা: এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

স্কোর

3.1

ধারাবাহিকতা

7.2

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.009

মোট আউটপুট টোকেন

591

মোট ইনপুট টোকেন

ইনপুট মূল্য

$1.740 / 1M

আউটপুট মূল্য

$3.480 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 18

প্রতি চেষ্টায় পাস রেট: 11.1%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

44.40s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 125.71s

প্রতিক্রিয়া সময় (মোট): 577.18s

API ত্রুটি: 16 নির্দেশনা অনুসরণ করা হয়নি: 1 ভুল উত্তর: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#112 DeepSeek V4 Pro

none

অবৈধ SVG

খরচ: $0.000
সময়: 300.0s
টোকেন: 0 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 23:18 নতুন টেস্ট যোগ হয়েছে	6.9	10.0	$0.096	তুলনা করুন
2026-06-16 15:17 পুনরায় পরীক্ষা	7.2	9.9	$0.034	তুলনা করুন
2026-06-16 14:39 স্যুইট পরিবর্তিত হয়েছে	7.2	9.9	$0.030	তুলনা করুন
2026-06-04 14:24 নতুন টেস্ট যোগ হয়েছে	5.7	8.5	$0.025 ↓	তুলনা করুন
2026-05-22 00:38 স্যুইট পরিবর্তিত হয়েছে	6.0	8.1	$0.046	তুলনা করুন
2026-04-29 14:46 পুনরায় পরীক্ষা	6.2	7.9	$0.043	তুলনা করুন
2026-04-24 09:19 প্রথম রান	3.1	প্রযোজ্য নয়	$0.009	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-24 09:19 · প্রথম রান	3.1	7.2	প্রযোজ্য নয়	0/18	6	591	$0.009	44.40s
2026-05-22 00:38 · স্যুইট পরিবর্তিত হয়েছে	6.0	8.9	8.1	8/20	3	5,347	$0.046	13.48s
পার্থক্য	-2.9	-1.7		-8	+3	-4756	-$0.037	+30920ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

DeepSeek V4 PrononevsKAT-Coder-Pro V2.5medium DeepSeek V4 PrononevsGPT-5.6 Solnone DeepSeek V4 PrononevsSeed-2.0-Minimedium DeepSeek V4 PrononevsMiMo-V2.5-Promedium DeepSeek V4 PrononevsGemini 3.5 Flashnone DeepSeek V4 PrononevsQwen3.6 Flashmedium DeepSeek V4 PrononevsMercury 2medium DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsKimi K2.5medium DeepSeek V4 PrononevsGPT-5.5none

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	3.1	10.0
কোডিং	2.8	1.6
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	2.8	1.6
ডোমেইন-নির্দিষ্ট	3.0	10.0
Sadharon Buddhimotta	3.4	9.6
নির্দেশনা অনুসরণ	3.3	6.1
ধাঁধা সমাধান	3.6	4.3
টুল কলিং	3.0	10.0

DeepSeek V4 Pro

Hamster playing table tennis

#112 DeepSeek V4 Pro

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল