#42

Claude Opus 4.6

Anthropic প্রকাশ: 2026-02-05 পরীক্ষিত হয়েছে: 2026-04-11 01:44 anthropic/claude-opus-4.6::medium

সারাংশ

Claude Opus 4.6 AI BENCHY-তে 7.6 স্কোর করে এবং #42 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 70.4%, মোট খরচ $1.446, এবং গড় response time 21.08s.

Claude Opus 4.6 কে আলাদা করে যা: এটি কোডিং-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর অ্যান্টি-এআই কৌশল এর দুর্বলতম ক্ষেত্র, rank #15.

স্কোর

7.6

ধারাবাহিকতা

9.1

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$1.446

মোট আউটপুট টোকেন

48,767

মোট ইনপুট টোকেন

ইনপুট মূল্য

$5.000 / 1M

আউটপুট মূল্য

$25.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 6

প্রতি চেষ্টায় পাস রেট: 70.4%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

21.08s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 83.40s

প্রতিক্রিয়া সময় (মোট): 231.84s

অতিরিক্ত ফরম্যাটিং: 4 ভুল উত্তর: 2

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#42 Claude Opus 4.6

medium

অবৈধ SVG

খরচ: $0.000
সময়: 300.0s
টোকেন: 0 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-06-04 13:45 নতুন টেস্ট যোগ হয়েছে	7.0	10.0	$2.053	তুলনা করুন
2026-05-22 00:17 স্যুইট পরিবর্তিত হয়েছে	7.2	10.0	$1.896	তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান	7.6	প্রযোজ্য নয়	$1.446	বর্তমান রান

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Claude Opus 4.6mediumvsClaude Opus 4.8low Claude Opus 4.6mediumvsQwen3.5-122B-A10Bmedium Claude Opus 4.6mediumvsStep 3.7 Flashlow Claude Opus 4.6mediumvsKimi K2.6mediumবিনামূল্যে উপলভ্য Claude Opus 4.6mediumvsMiniMax M3medium Claude Opus 4.6mediumvsGemini 3.5 Flashhigh Claude Opus 4.6mediumvsGemini 3 Flash Previewmedium Claude Opus 4.6mediumvsNemotron 3 Ultra 550b A55bmediumবিনামূল্যে উপলভ্য Claude Opus 4.6mediumvsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	6.4	5.8
কোডিং	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	3.0	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	7.7	10.0
টুল কলিং	10.0	10.0

Claude Opus 4.6

Hamster playing table tennis

#42 Claude Opus 4.6

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল