#78

DeepSeek V4 Pro

DeepSeek প্রকাশ: 2026-04-24 পরীক্ষিত হয়েছে: 2026-04-29 14:46 deepseek/deepseek-v4-pro::none

(high) (none)

সারাংশ

DeepSeek V4 Pro AI BENCHY-তে 6.2 স্কোর করে এবং #78 স্থানে আছে। এর reliability 7.9, pass rate 48.2%, মোট খরচ $0.043, এবং গড় response time 14.01s.

DeepSeek V4 Pro কে আলাদা করে যা: এটি ডোমেইন-নির্দিষ্ট-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #2; আর অ্যান্টি-এআই কৌশল এর দুর্বলতম ক্ষেত্র, rank #17. এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

স্কোর

6.2

ধারাবাহিকতা

8.7

নির্ভরযোগ্যতা

7.9

মোট খরচ (বর্তমান মূল্য)

$0.043

মোট আউটপুট টোকেন

3,903

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.435 / 1M

আউটপুট মূল্য

$0.870 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 11

প্রতি চেষ্টায় পাস রেট: 48.2%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

14.01s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 58.65s

প্রতিক্রিয়া সময় (মোট): 252.12s

ভুল উত্তর: 7 নির্দেশনা অনুসরণ করা হয়নি: 3 অতিরিক্ত ফরম্যাটিং: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#78 DeepSeek V4 Pro

none

অবৈধ SVG

খরচ: $0.000
সময়: 300.0s
টোকেন: 0 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 23:18 নতুন টেস্ট যোগ হয়েছে	6.9	10.0	$0.096	তুলনা করুন
2026-06-16 15:17 পুনরায় পরীক্ষা	7.2	9.9	$0.034	তুলনা করুন
2026-06-16 14:39 স্যুইট পরিবর্তিত হয়েছে	7.2	9.9	$0.030	তুলনা করুন
2026-06-04 14:24 নতুন টেস্ট যোগ হয়েছে	5.7	8.5	$0.025 ↓	তুলনা করুন
2026-05-22 00:38 স্যুইট পরিবর্তিত হয়েছে	6.0	8.1	$0.046	তুলনা করুন
2026-04-29 14:46 পুনরায় পরীক্ষা	6.2	7.9	$0.043	বর্তমান রান
2026-04-24 09:19 প্রথম রান	3.1	প্রযোজ্য নয়	$0.009	তুলনা করুন

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-29 14:46 · পুনরায় পরীক্ষা	6.2	8.7	7.9	7/18	3	3,903	$0.043	14.01s
2026-05-22 00:38 · স্যুইট পরিবর্তিত হয়েছে	6.0	8.9	8.1	8/20	3	5,347	$0.046	13.48s
পার্থক্য	+0.1	-0.2	-0.2	-1	0	-1444	-$0.004	+529ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

DeepSeek V4 PrononevsKAT-Coder-Pro V2.5medium DeepSeek V4 PrononevsGPT-5.6 Solnone DeepSeek V4 PrononevsSeed-2.0-Minimedium DeepSeek V4 PrononevsMiMo-V2.5-Promedium DeepSeek V4 PrononevsGemini 3.5 Flashnone DeepSeek V4 PrononevsQwen3.6 Flashmedium DeepSeek V4 PrononevsMercury 2medium DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsKimi K2.5medium DeepSeek V4 PrononevsGPT-5.5none

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	3.5	8.0
কোডিং	7.1	3.7
সমন্বিত	9.5	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	10.0
Sadharon Buddhimotta	4.3	9.9
নির্দেশনা অনুসরণ	6.3	10.0
ধাঁধা সমাধান	6.0	7.1
টুল কলিং	10.0	10.0

DeepSeek V4 Pro

Hamster playing table tennis

#78 DeepSeek V4 Pro

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল