#104

DeepSeek V3.2

DeepSeek প্রকাশ: 2025-12-01 পরীক্ষিত হয়েছে: 2026-05-08 15:31 deepseek/deepseek-v3.2::none

(medium) (none)

সারাংশ

DeepSeek V3.2 AI BENCHY-তে 5.7 স্কোর করে এবং #104 স্থানে আছে। এর reliability 10.0, pass rate 49.1%, মোট খরচ $0.016, এবং গড় response time 13.43s.

DeepSeek V3.2 কে আলাদা করে যা: এটি সমন্বিত-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #3; আর কোডিং এর দুর্বলতম ক্ষেত্র, rank #16. এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

স্কোর

5.7

ধারাবাহিকতা

7.9

নির্ভরযোগ্যতা

10.0

মোট খরচ (বর্তমান মূল্য)

$0.016

মোট আউটপুট টোকেন

7,194

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.252 / 1M

আউটপুট মূল্য

$0.378 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 12

প্রতি চেষ্টায় পাস রেট: 49.1%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

13.43s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 115.89s

প্রতিক্রিয়া সময় (মোট): 255.10s

ভুল উত্তর: 8 অতিরিক্ত ফরম্যাটিং: 2 নির্দেশনা অনুসরণ করা হয়নি: 1 অবৈধ টুল কল: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#104 DeepSeek V3.2

none

খরচ: $0.002
সময়: 7.0s
টোকেন: 1,046 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 23:15 নতুন টেস্ট যোগ হয়েছে	5.0	10.0	$0.054 ↑	তুলনা করুন
2026-06-04 14:22 নতুন টেস্ট যোগ হয়েছে	5.2	10.0	$0.017 ↓	তুলনা করুন
2026-05-22 00:35 স্যুইট পরিবর্তিত হয়েছে	5.6	10.0	$0.018	তুলনা করুন
2026-05-08 15:31 স্যুইট পরিবর্তিত হয়েছে	5.7	10.0	$0.016	বর্তমান রান
2026-04-20 17:48 প্রথম নথিভুক্ত রান	6.1	প্রযোজ্য নয়	$0.016	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-08 15:31 · স্যুইট পরিবর্তিত হয়েছে	5.7	7.9	10.0	7/19	5	7,194	$0.016	13.43s
2026-04-20 17:48 · প্রথম নথিভুক্ত রান	6.1	8.1	প্রযোজ্য নয়	7/18	4	8,384	$0.016	12.09s
পার্থক্য	-0.5	-0.2		0	+1	-1190	-$0.001	+1340ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

DeepSeek V3.2nonevsQwen3.6 27Bnone DeepSeek V3.2nonevsMiMo-V2.5-Pronone DeepSeek V3.2nonevsGLM 5.1none DeepSeek V3.2nonevsKimi K2.5none DeepSeek V3.2nonevsDeepSeek V4 Flashnone DeepSeek V3.2nonevsGemma 4 26B A4Bnoneবিনামূল্যে উপলভ্য DeepSeek V3.2nonevsGemini 3 Flash Previewmedium DeepSeek V3.2nonevsGemini 3.5 Flashhigh DeepSeek V3.2nonevsNemotron 3 Ultramediumবিনামূল্যে উপলভ্য DeepSeek V3.2nonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	3.3	8.2
কোডিং	2.4	1.3
সমন্বিত	6.5	10.0
ডেটা পার্সিং ও নিষ্কাশন	6.3	5.8
ডোমেইন-নির্দিষ্ট	3.0	6.9
Sadharon Buddhimotta	7.6	10.0
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	7.5	7.7
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

DeepSeek V3.2

Hamster playing table tennis

#104 DeepSeek V3.2

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল