#69

DeepSeek V3.2

DeepSeek প্রকাশ: 2025-12-01 পরীক্ষিত হয়েছে: 2026-04-20 17:48 deepseek/deepseek-v3.2::none

(medium) (none)

সারাংশ

DeepSeek V3.2 AI BENCHY-তে 6.1 স্কোর করে এবং #69 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 50.0%, মোট খরচ $0.016, এবং গড় response time 12.09s.

DeepSeek V3.2 কে আলাদা করে যা: এটি ধাঁধা সমাধান-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #3; আর অ্যান্টি-এআই কৌশল এর দুর্বলতম ক্ষেত্র, rank #18. এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

স্কোর

6.1

ধারাবাহিকতা

8.1

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.016

মোট আউটপুট টোকেন

8,384

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.252 / 1M

আউটপুট মূল্য

$0.378 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 11

প্রতি চেষ্টায় পাস রেট: 50.0%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

12.09s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 115.89s

প্রতিক্রিয়া সময় (মোট): 217.56s

ভুল উত্তর: 8 অতিরিক্ত ফরম্যাটিং: 2 অবৈধ টুল কল: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#69 DeepSeek V3.2

none

খরচ: $0.002
সময়: 7.0s
টোকেন: 1,046 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 23:15 নতুন টেস্ট যোগ হয়েছে	5.0	10.0	$0.054 ↑	তুলনা করুন
2026-06-04 14:22 নতুন টেস্ট যোগ হয়েছে	5.2	10.0	$0.017 ↓	তুলনা করুন
2026-05-22 00:35 স্যুইট পরিবর্তিত হয়েছে	5.6	10.0	$0.018	তুলনা করুন
2026-05-08 15:31 স্যুইট পরিবর্তিত হয়েছে	5.7	10.0	$0.016	তুলনা করুন
2026-04-20 17:48 প্রথম নথিভুক্ত রান	6.1	প্রযোজ্য নয়	$0.016	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-20 17:48 · প্রথম নথিভুক্ত রান	6.1	8.1	প্রযোজ্য নয়	7/18	4	8,384	$0.016	12.09s
2026-05-22 00:35 · স্যুইট পরিবর্তিত হয়েছে	5.6	8.0	10.0	7/20	5	11,163	$0.018	14.46s
পার্থক্য	+0.6	+0.1		0	-1	-2779	-$0.002	-2374ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

DeepSeek V3.2nonevsQwen3.6 27Bnone DeepSeek V3.2nonevsMiMo-V2.5-Pronone DeepSeek V3.2nonevsGLM 5.1none DeepSeek V3.2nonevsKimi K2.5none DeepSeek V3.2nonevsDeepSeek V4 Flashnone DeepSeek V3.2nonevsGemma 4 26B A4Bnoneবিনামূল্যে উপলভ্য DeepSeek V3.2nonevsGemini 3 Flash Previewmedium DeepSeek V3.2nonevsGemini 3.5 Flashhigh DeepSeek V3.2nonevsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য DeepSeek V3.2nonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	3.2	9.8
কোডিং	2.4	1.3
সমন্বিত	6.5	10.0
ডেটা পার্সিং ও নিষ্কাশন	6.3	5.8
ডোমেইন-নির্দিষ্ট	3.6	7.2
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	8.5	7.5
টুল কলিং	10.0	10.0

DeepSeek V3.2

Hamster playing table tennis

#69 DeepSeek V3.2

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল