AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.2

সারাংশ

Claude Opus 4.8 vs GPT-5.2 benchmark তুলনা: GPT-5.2 average score-এ এগিয়ে: 8.4 vs 7.7. GPT-5.2-এর benchmark খরচ কম: $0.548 vs $1.270. Claude Opus 4.8 দ্রুত: 10.83s vs 16.88s, pass rates 79.4% vs 71.4%.

প্রস্তাবিত মডেল: GPT-5.2 - It has the best score here (8.4), while costing about 2.3x less than Claude Opus 4.8.

AI BENCHY টেস্ট স্যুট থেকে বেঞ্চমার্ক তৈরি হয়েছে: 2026-07-02

মেট্রিক	Claude Opus 4.8 Claude Opus 4.8 low প্রকাশ: 2026-05-28	GPT-5.2 GPT-5.2 medium প্রকাশ: 2025-12-11

মেট্রিক	Claude Opus 4.8 Claude Opus 4.8 low প্রকাশ: 2026-05-28	GPT-5.2 GPT-5.2 medium প্রকাশ: 2025-12-11
স্কোর	7.7	8.4
র‍্যাঙ্ক	#38	#22
নির্ভরযোগ্যতা	10.0	10.0
ধারাবাহিকতা	8.8	8.4
সঠিক টেস্ট
প্রতি চেষ্টায় পাস রেট	79.4%	71.4%
অস্থির টেস্ট	3	4
মোট রান	63	63
প্রতি ফলাফলে খরচ	8.466	4.209
মোট খরচ	$1.270	$0.548
ইনপুট মূল্য	$5.000 / 1M	$1.750 / 1M
আউটপুট মূল্য	$25.000 / 1M	$14.000 / 1M
মোট ইনপুট টোকেন	60,946	33,967
আউটপুট টোকেন	31,771	2,901
রিজনিং টোকেন	6,831	31,932
প্রতিক্রিয়া সময় (গড়)	10.83s	16.88s
প্রতিক্রিয়া সময় (সর্বোচ্চ)	127.97s	77.80s
প্রতিক্রিয়া সময় (মোট)	227.39s	236.34s

জেনারেশন শোকেস

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

খরচ: $0.031
সময়: 14.1s
টোকেন: 1,345 tok

#22 GPT-5.2

medium

খরচ: $0.047
সময়: 49.2s
টোকেন: 3,396 tok

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

বিভাগভিত্তিক বিশ্লেষণ

অ্যান্টি-এআই কৌশল	স্কোর	ধারাবাহিকতা	প্রতি চেষ্টায় পাস রেট	অস্থির টেস্ট	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)	ইনপুট টোকেন	আউটপুট টোকেন	রিজনিং টোকেন
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371
GPT-5.2	6.5	8.0	58.3%	1		7.81s	606	567	2,002

কোডিং	স্কোর	ধারাবাহিকতা	প্রতি চেষ্টায় পাস রেট	অস্থির টেস্ট	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)	ইনপুট টোকেন	আউটপুট টোকেন	রিজনিং টোকেন
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809
GPT-5.2	10.0	10.0	100.0%	0		22.73s	7,302	511	11,912

সমন্বিত	স্কোর	ধারাবাহিকতা	প্রতি চেষ্টায় পাস রেট	অস্থির টেস্ট	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)	ইনপুট টোকেন	আউটপুট টোকেন	রিজনিং টোকেন
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081
GPT-5.2	10.0	10.0	100.0%	0		14.06s	11,019	291	1,757

ডেটা পার্সিং ও নিষ্কাশন	স্কোর	ধারাবাহিকতা	প্রতি চেষ্টায় পাস রেট	অস্থির টেস্ট	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)	ইনপুট টোকেন	আউটপুট টোকেন	রিজনিং টোকেন
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0
GPT-5.2	10.0	10.0	100.0%	0		3.15s	7,140	234	420

ডোমেইন-নির্দিষ্ট	স্কোর	ধারাবাহিকতা	প্রতি চেষ্টায় পাস রেট	অস্থির টেস্ট	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)	ইনপুট টোকেন	আউটপুট টোকেন	রিজনিং টোকেন
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908
GPT-5.2	5.9	7.2	55.6%	1		77.80s	473	42	10,342

Sadharon Buddhimotta	স্কোর	ধারাবাহিকতা	প্রতি চেষ্টায় পাস রেট	অস্থির টেস্ট	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)	ইনপুট টোকেন	আউটপুট টোকেন	রিজনিং টোকেন
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0
GPT-5.2	3.7	9.7	0.0%	0		4.32s	477	162	269

নির্দেশনা অনুসরণ	স্কোর	ধারাবাহিকতা	প্রতি চেষ্টায় পাস রেট	অস্থির টেস্ট	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)	ইনপুট টোকেন	আউটপুট টোকেন	রিজনিং টোকেন
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221
GPT-5.2	9.9	10.0	100.0%	0		3.12s	660	94	614

ধাঁধা সমাধান	স্কোর	ধারাবাহিকতা	প্রতি চেষ্টায় পাস রেট	অস্থির টেস্ট	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)	ইনপুট টোকেন	আউটপুট টোকেন	রিজনিং টোকেন
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184
GPT-5.2	7.5	7.3	77.8%	1		5.80s	642	735	924

টুল কলিং	স্কোর	ধারাবাহিকতা	প্রতি চেষ্টায় পাস রেট	অস্থির টেস্ট	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)	ইনপুট টোকেন	আউটপুট টোকেন	রিজনিং টোকেন
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35
GPT-5.2	4.7	1.6	66.7%	1		10.30s	5,453	239	469

সাধারণ জ্ঞান	স্কোর	ধারাবাহিকতা	প্রতি চেষ্টায় পাস রেট	অস্থির টেস্ট	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)	ইনপুট টোকেন	আউটপুট টোকেন	রিজনিং টোকেন
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222
GPT-5.2	3.0	10.0	0.0%	0		28.18s	195	26	3,223

দ্রুত তুলনা

তুলনার জুটি বদলান