Claude Opus 4.7

Anthropic প্রকাশ: 2026-04-16 পরীক্ষিত হয়েছে: 2026-04-16 15:59 anthropic/claude-opus-4.7::none

(medium) (none)

সারাংশ

Claude Opus 4.7 AI BENCHY-তে 9.2 স্কোর করে এবং #4 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 88.9%, মোট খরচ $0.505, এবং গড় response time 3.13s.

Claude Opus 4.7 কে আলাদা করে যা: এটি ডোমেইন-নির্দিষ্ট-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #2; আর অ্যান্টি-এআই কৌশল এর দুর্বলতম ক্ষেত্র, rank #12. এটি সামগ্রিকভাবে সর্বোচ্চ rank করা মডেলগুলোর একটি। এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

স্কোর

9.2

ধারাবাহিকতা

10.0

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.505

মোট আউটপুট টোকেন

6,326

মোট ইনপুট টোকেন

ইনপুট মূল্য

$5.000 / 1M

আউটপুট মূল্য

$25.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 2

প্রতি চেষ্টায় পাস রেট: 88.9%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

3.13s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 18.27s

প্রতিক্রিয়া সময় (মোট): 56.33s

ভুল উত্তর: 2

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 Claude Opus 4.7

none

খরচ: $0.051
সময়: 24.2s
টোকেন: 2,181 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-05-08 13:36 পুনরায় পরীক্ষা	8.9	10.0	$0.505	তুলনা করুন
2026-05-08 13:36 পুনরায় পরীক্ষা	8.9	10.0	$0.507	তুলনা করুন
2026-05-08 13:36 স্যুইট পরিবর্তিত হয়েছে	8.9	10.0	$0.507	তুলনা করুন
2026-04-16 15:59 প্রথম নথিভুক্ত রান	9.2	প্রযোজ্য নয়	$0.505	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-16 15:59 · প্রথম নথিভুক্ত রান	9.2	10.0	প্রযোজ্য নয়	16/18	6,326	$0.505	3.13s
2026-05-08 13:36 · পুনরায় পরীক্ষা	8.9	10.0	10.0	16/19	6,329	$0.507	3.04s
পার্থক্য	+0.3	0.0		0	-3	-$0.002	+88ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Claude Opus 4.7nonevsGemini 3.5 Flashhigh Claude Opus 4.7nonevsGemini 3 Flash Previewmedium Claude Opus 4.7nonevsNemotron 3 Ultra 550b A55bmediumবিনামূল্যে উপলভ্য Claude Opus 4.7nonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	8.3	10.0
কোডিং	10.0	10.0
সমন্বিত	9.5	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	7.7	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	10.0	10.0
টুল কলিং	10.0	10.0

Claude Opus 4.7

Hamster playing table tennis

#4 Claude Opus 4.7

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল