#31

DeepSeek V3.2

DeepSeek প্রকাশ: 2025-12-01 পরীক্ষিত হয়েছে: 2026-04-20 17:48 deepseek/deepseek-v3.2::medium

(medium) (none)

সারাংশ

DeepSeek V3.2 AI BENCHY-তে 8.0 স্কোর করে এবং #31 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 79.6%, মোট খরচ $0.029, এবং গড় response time 46.41s.

DeepSeek V3.2 কে আলাদা করে যা: এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

স্কোর

8.0

ধারাবাহিকতা

8.2

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.029

মোট আউটপুট টোকেন

59,131

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.252 / 1M

আউটপুট মূল্য

$0.378 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 6

প্রতি চেষ্টায় পাস রেট: 79.6%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

46.41s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 180.92s

প্রতিক্রিয়া সময় (মোট): 835.33s

ভুল উত্তর: 3 টাইমআউট: 2 নির্দেশনা অনুসরণ করা হয়নি: 1

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#31 DeepSeek V3.2

medium

খরচ: $0.001
সময়: 53.6s
টোকেন: 1,932 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 23:13 নতুন টেস্ট যোগ হয়েছে	7.0	10.0	$0.078 ↑	তুলনা করুন
2026-06-04 14:41 নতুন টেস্ট যোগ হয়েছে	7.0	10.0	$0.044 ↓	তুলনা করুন
2026-05-22 00:46 স্যুইট পরিবর্তিত হয়েছে	7.0	9.1	$0.037	তুলনা করুন
2026-05-08 15:27 স্যুইট পরিবর্তিত হয়েছে	7.2	10.0	$0.031	তুলনা করুন
2026-04-20 17:48 প্রথম নথিভুক্ত রান	8.0	প্রযোজ্য নয়	$0.029	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-20 17:48 · প্রথম নথিভুক্ত রান	8.0	8.2	প্রযোজ্য নয়	12/18	4	59,131	$0.029	46.41s
2026-05-08 15:27 · স্যুইট পরিবর্তিত হয়েছে	7.2	7.5	10.0	11/19	6	60,800	$0.031	46.06s
পার্থক্য	+0.8	+0.7		+1	-2	-1669	-$0.002	+342ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

DeepSeek V3.2mediumvsGLM 5.1medium DeepSeek V3.2mediumvsGrok 4.3medium DeepSeek V3.2mediumvsKimi K2.5medium DeepSeek V3.2mediumvsQwen3.5-122B-A10Bmedium DeepSeek V3.2mediumvsMercury 2medium DeepSeek V3.2mediumvsGemini 3 Flash Previewmedium DeepSeek V3.2mediumvsGemini 3.5 Flashhigh DeepSeek V3.2mediumvsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য DeepSeek V3.2mediumvsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	8.4	9.9
কোডিং	4.7	1.6
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	7.2
Sadharon Buddhimotta	5.4	2.5
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	8.2	7.2
টুল কলিং	10.0	10.0

DeepSeek V3.2

Hamster playing table tennis

#31 DeepSeek V3.2

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল