Claude Opus 4.7

Anthropic প্রকাশ: 2026-04-16 পরীক্ষিত হয়েছে: 2026-04-16 15:59 anthropic/claude-opus-4.7::medium

(medium) (none)

সারাংশ

Claude Opus 4.7 AI BENCHY-তে 9.2 স্কোর করে এবং #3 স্থানে আছে। এর reliability প্রযোজ্য নয়, pass rate 88.9%, মোট খরচ $0.447, এবং গড় response time 3.53s.

Claude Opus 4.7 কে আলাদা করে যা: এটি সামগ্রিকভাবে সর্বোচ্চ rank করা মডেলগুলোর একটি। এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম। একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

স্কোর

9.2

ধারাবাহিকতা

10.0

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট খরচ (বর্তমান মূল্য)

$0.447

মোট আউটপুট টোকেন

6,716

মোট ইনপুট টোকেন

ইনপুট মূল্য

$5.000 / 1M

আউটপুট মূল্য

$25.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 2

প্রতি চেষ্টায় পাস রেট: 88.9%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

3.53s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 21.45s

প্রতিক্রিয়া সময় (মোট): 60.03s

টাইমআউট: 1 ভুল উত্তর: 1

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#3 Claude Opus 4.7

medium

খরচ: $0.059
সময়: 26.8s
টোকেন: 2,475 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-06-04 13:44 নতুন টেস্ট যোগ হয়েছে	8.7	10.0	$0.679	তুলনা করুন
2026-05-22 00:18 পুনরায় পরীক্ষা	8.9	10.0	$0.625	তুলনা করুন
2026-04-16 15:59 প্রথম নথিভুক্ত রান	9.2	প্রযোজ্য নয়	$0.447	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-16 15:59 · প্রথম নথিভুক্ত রান	9.2	10.0	প্রযোজ্য নয়	16/18	6,716	$0.447	3.53s
2026-05-22 00:18 · পুনরায় পরীক্ষা	8.9	10.0	10.0	17/20	12,666	$0.625	4.50s
পার্থক্য	+0.3	0.0		-1	-5950	-$0.179	-967ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Claude Opus 4.7mediumvsClaude Opus 4.8medium Claude Opus 4.7mediumvsGLM 5.2medium Claude Opus 4.7mediumvsQwen3.6 Max Previewmedium Claude Opus 4.7mediumvsGLM 5medium Claude Opus 4.7mediumvsGPT-5.3-Codexmedium Claude Opus 4.7mediumvsGPT-5 Minimedium Claude Opus 4.7mediumvsGemini 3.5 Flashhigh Claude Opus 4.7mediumvsGemini 3 Flash Previewmedium Claude Opus 4.7mediumvsNemotron 3 Ultra 550b A55bmediumবিনামূল্যে উপলভ্য Claude Opus 4.7mediumvsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	8.3	10.0
কোডিং	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	7.7	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	10.0	10.0
টুল কলিং	10.0	10.0

Claude Opus 4.7

Hamster playing table tennis

#3 Claude Opus 4.7

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল