AI BENCHY तुलना

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.2

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-05-28

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	GPT-5.2 GPT-5.2 medium रिलीज़: 2025-12-11

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	GPT-5.2 GPT-5.2 medium रिलीज़: 2025-12-11
स्कोर	7.3	7.3
रैंक	#63	#61
विश्वसनीयता	10.0	10.0
संगति	9.2	8.3
सही परीक्षण
प्रति प्रयास पास दर	65.0%	70.0%
अस्थिर टेस्ट	2	4
कुल रन	60	60
प्रति परिणाम लागत	4.324	4.094
कुल लागत	$0.519	$0.492
इनपुट कीमत	$5.000 / 1M	$1.750 / 1M
आउटपुट कीमत	$25.000 / 1M	$14.000 / 1M
आउटपुट टोकन	8,098	2,880
रीजनिंग टोकन	0	28,289
प्रतिक्रिया समय (औसत)	3.51s	16.50s
प्रतिक्रिया समय (अधिकतम)	17.73s	77.80s
प्रतिक्रिया समय (कुल)	70.19s	214.45s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
GPT-5.2	10.0	10.0	100.0%	0		23.15s	490	8,269

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
GPT-5.2	7.5	7.3	77.8%	1		5.80s	735	924

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
GPT-5.2	3.0	10.0	0.0%	0		28.18s	26	3,223

त्वरित तुलना

तुलना जोड़ी बदलें

Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsRing-2.6-1Tmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGLM 5V Turbomedium Ring-2.6-1TnonevsGPT-5.2medium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Gemini 3.1 Flash LitelowvsGPT-5.2medium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGPT-5 Minimedium Claude Opus 4.8nonevsKimi K2.6mediumनिःशुल्क उपलब्ध Claude Opus 4.8nonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium