#64

Qwen3.5-Flash

Qwen প্রকাশ: 2026-02-24 পরীক্ষিত হয়েছে: 2026-04-11 01:19 qwen/qwen3.5-flash-02-23::none

(medium) (none)

সারাংশ

Qwen3.5-Flash AI BENCHY-তে 6.2 স্কোর করে এবং #64 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 46.3%, মোট খরচ $0.006, এবং গড় response time 3.25s.

Qwen3.5-Flash কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর নির্দেশনা অনুসরণ এর দুর্বলতম ক্ষেত্র, rank #15. এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম। একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

স্কোর

6.2

ধারাবাহিকতা

9.6

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.006

মোট আউটপুট টোকেন

4,266

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.065 / 1M

আউটপুট মূল্য

$0.260 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 10

প্রতি চেষ্টায় পাস রেট: 46.3%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

3.25s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 13.73s

প্রতিক্রিয়া সময় (মোট): 58.44s

ভুল উত্তর: 9 নির্দেশনা অনুসরণ করা হয়নি: 1

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#64 Qwen3.5-Flash

none

খরচ: $0.003
সময়: 47.4s
টোকেন: 7,799 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-06-04 13:25 নতুন টেস্ট যোগ হয়েছে	5.8	10.0	$0.005 ↓	তুলনা করুন
2026-05-21 23:55 স্যুইট পরিবর্তিত হয়েছে	5.9	10.0	$0.006	তুলনা করুন
2026-04-11 01:19 প্রথম নথিভুক্ত রান	6.2	প্রযোজ্য নয়	$0.006	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-11 01:19 · প্রথম নথিভুক্ত রান	6.2	9.6	প্রযোজ্য নয়	8/18	1	4,266	$0.006	3.25s
2026-05-21 23:55 · স্যুইট পরিবর্তিত হয়েছে	5.9	9.7	10.0	8/20	1	4,299	$0.006	2.99s
পার্থক্য	+0.3	-0.1		0	0	-33	-$0.001	+260ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Qwen3.5-FlashnonevsGemini 3.1 Flash Litelow Qwen3.5-FlashnonevsNemotron 3 Supermediumবিনামূল্যে উপলভ্য Qwen3.5-FlashnonevsGemini 3.1 Flash Lite Previewnone Qwen3.5-FlashnonevsGPT-5.6 Solnone Qwen3.5-FlashnonevsGemma 4 31Bmediumবিনামূল্যে উপলভ্য Qwen3.5-FlashnonevsGemini 3.5 Flashhigh Qwen3.5-FlashnonevsGemini 3 Flash Previewmedium Qwen3.5-FlashnonevsNemotron 3 Ultra 550b A55bmediumবিনামূল্যে উপলভ্য Qwen3.5-FlashnonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	3.5	8.3
কোডিং	10.0	10.0
সমন্বিত	3.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	7.7	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	6.3	10.0
ধাঁধা সমাধান	3.3	10.0
টুল কলিং	10.0	10.0

Qwen3.5-Flash

Hamster playing table tennis

#64 Qwen3.5-Flash

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল