AI BENCHY तुलना

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.2

सारांश

Claude Opus 4.8 vs GPT-5.2 benchmark तुलना: GPT-5.2 average score में आगे है: 8.4 vs 7.7. GPT-5.2 की benchmark लागत कम है: $0.548 vs $1.270. Claude Opus 4.8 तेज है: 10.83s vs 16.88s, pass rates 79.4% vs 71.4%.

अनुशंसित मॉडल: GPT-5.2 - It has the best score here (8.4), while costing about 2.3x less than Claude Opus 4.8.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-07-02

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 low रिलीज़: 2026-05-28	GPT-5.2 GPT-5.2 medium रिलीज़: 2025-12-11

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 low रिलीज़: 2026-05-28	GPT-5.2 GPT-5.2 medium रिलीज़: 2025-12-11
स्कोर	7.7	8.4
रैंक	#38	#22
विश्वसनीयता	10.0	10.0
संगति	8.8	8.4
सही परीक्षण
प्रति प्रयास पास दर	79.4%	71.4%
अस्थिर टेस्ट	3	4
कुल रन	63	63
प्रति परिणाम लागत	8.466	4.209
कुल लागत	$1.270	$0.548
इनपुट कीमत	$5.000 / 1M	$1.750 / 1M
आउटपुट कीमत	$25.000 / 1M	$14.000 / 1M
कुल इनपुट टोकन	60,946	33,967
आउटपुट टोकन	31,771	2,901
रीजनिंग टोकन	6,831	31,932
प्रतिक्रिया समय (औसत)	10.83s	16.88s
प्रतिक्रिया समय (अधिकतम)	127.97s	77.80s
प्रतिक्रिया समय (कुल)	227.39s	236.34s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

लागत: $0.031
समय: 14.1s
टोकन: 1,345 tok

#22 GPT-5.2

medium

लागत: $0.047
समय: 49.2s
टोकन: 3,396 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371
GPT-5.2	6.5	8.0	58.3%	1		7.81s	606	567	2,002

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809
GPT-5.2	10.0	10.0	100.0%	0		22.73s	7,302	511	11,912

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081
GPT-5.2	10.0	10.0	100.0%	0		14.06s	11,019	291	1,757

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0
GPT-5.2	10.0	10.0	100.0%	0		3.15s	7,140	234	420

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908
GPT-5.2	5.9	7.2	55.6%	1		77.80s	473	42	10,342

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0
GPT-5.2	3.7	9.7	0.0%	0		4.32s	477	162	269

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221
GPT-5.2	9.9	10.0	100.0%	0		3.12s	660	94	614

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184
GPT-5.2	7.5	7.3	77.8%	1		5.80s	642	735	924

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35
GPT-5.2	4.7	1.6	66.7%	1		10.30s	5,453	239	469

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222
GPT-5.2	3.0	10.0	0.0%	0		28.18s	195	26	3,223

त्वरित तुलना

तुलना जोड़ी बदलें