#65

Claude Opus 4.7

Anthropic প্রকাশ: 2026-04-16 পরীক্ষিত হয়েছে: 2026-05-08 13:36 anthropic/claude-opus-4.7::none

(medium) (none)

সারাংশ

Claude Opus 4.7 AI BENCHY-তে 7.4 স্কোর করে এবং #65 স্থানে আছে। এর reliability 10.0, pass rate 76.2%, মোট খরচ $0.505, এবং গড় response time 3.02s.

Claude Opus 4.7 কে আলাদা করে যা: এটি ডোমেইন-নির্দিষ্ট-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #1; আর কোডিং এর দুর্বলতম ক্ষেত্র, rank #15. একই ধরনের মডেলের তুলনায় এটি লক্ষণীয়ভাবে দ্রুত।

আর্কাইভড মডেল: এই মডেল আর আপডেট করা হবে না এবং নতুন টেস্টে পরীক্ষা করা হবে না।

স্কোর

7.4

ধারাবাহিকতা

9.0

নির্ভরযোগ্যতা

10.0

মোট খরচ (বর্তমান মূল্য)

$0.505

মোট আউটপুট টোকেন

6,265

মোট ইনপুট টোকেন

69,576

ইনপুট মূল্য

$5.000 / 1M

আউটপুট মূল্য

$25.000 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 3

প্রতি চেষ্টায় পাস রেট: 76.2%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

3.02s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 18.27s

প্রতিক্রিয়া সময় (মোট): 57.44s

ভুল উত্তর: 3

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#65 Claude Opus 4.7

none

খরচ: $0.051
সময়: 24.2s
টোকেন: 2,181 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-05-08 13:36 পুনরায় পরীক্ষা	8.9	10.0	$0.505	বর্তমান রান
2026-05-08 13:36 পুনরায় পরীক্ষা	8.9	10.0	$0.507	তুলনা করুন
2026-05-08 13:36 স্যুইট পরিবর্তিত হয়েছে	8.9	10.0	$0.507	তুলনা করুন
2026-04-16 15:59 প্রথম নথিভুক্ত রান	9.2	প্রযোজ্য নয়	$0.505	তুলনা করুন

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	মোট আউটপুট টোকেন	মোট ইনপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-05-08 13:36 · বর্তমান রান	7.4	9.0	10.0	16/19	6,265	69,576	$0.505	3.02s
2026-04-16 15:59 · প্রথম নথিভুক্ত রান	9.2	10.0	প্রযোজ্য নয়	16/18	6,326	0	$0.505	3.13s
পার্থক্য	-1.7	-1.0		0	-61	+69576	-$0.001	-107ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

মূল্যের ইতিহাস

OpenRouter থেকে এই মডেলের ঐতিহাসিক মূল্য তথ্য।

তারিখ	ইনপুট মূল্য	আউটপুট মূল্য
2026-06-04 15:40	$5.000 / 1M	$25.000 / 1M

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

Claude Opus 4.7nonevsGemini 3.5 Flashhigh Claude Opus 4.7nonevsGemini 3 Flash Previewmedium Claude Opus 4.7nonevsNemotron 3 Ultra 550b A55bmediumবিনামূল্যে উপলভ্য Claude Opus 4.7nonevsGPT-5.5low

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	8.3	10.0
কোডিং	3.3	3.3
সমন্বিত	9.5	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	7.7	10.0
Sadharon Buddhimotta	10.0	10.0
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	10.0	10.0
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

Claude Opus 4.7

Hamster playing table tennis

#65 Claude Opus 4.7

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল