AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.2 Chat

خلاصہ

Claude Opus 4.6 vs GPT-5.2 Chat benchmark موازنہ: GPT-5.2 Chat average score میں آگے ہے: 8.5 vs 7.7. GPT-5.2 Chat کی benchmark لاگت کم ہے: $0.393 vs $2.053. GPT-5.2 Chat تیز ہے: 7.13s vs 25.89s، pass rates 61.9% vs 74.6%.

تجویز کردہ ماڈل: GPT-5.2 Chat - It has the best score here (8.5), while costing about 5.2x less than Claude Opus 4.6.

بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-07-02

میٹرک	Claude Opus 4.6 Claude Opus 4.6 medium اجرا: 2026-02-05	GPT-5.2 Chat GPT-5.2 Chat none اجرا: 2025-12-11

میٹرک	Claude Opus 4.6 Claude Opus 4.6 medium اجرا: 2026-02-05	GPT-5.2 Chat GPT-5.2 Chat none اجرا: 2025-12-11
اسکور	7.7	8.5
درجہ	#40	#19
اعتماد پذیری	10.0	10.0
تسلسل	8.8	8.9
درست ٹیسٹس
فی کوشش کامیابی کی شرح	61.9%	74.6%
غیر مستحکم ٹیسٹ	3	3
کل رنز	63	63
فی نتیجہ لاگت	17.103	2.803
کل لاگت	$2.053	$0.393
ان پٹ قیمت	$5.000 / 1M	$1.750 / 1M
آؤٹ پٹ قیمت	$25.000 / 1M	$14.000 / 1M
کل ان پٹ ٹوکنز	53,227	34,212
آؤٹ پٹ ٹوکنز	47,446	23,744
ریزننگ ٹوکنز	24,000	0
ردِعمل کا وقت (اوسط)	25.89s	7.13s
ردِعمل کا وقت (زیادہ سے زیادہ)	83.40s	38.52s
ردِعمل کا وقت (کل)	362.49s	149.69s

جنریشن شوکیس

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#40 Claude Opus 4.6

medium

غلط SVG

لاگت: $0.000
وقت: 300.0s
ٹوکنز: 0 tok

#19 GPT-5.2 Chat

none

لاگت: $0.010
وقت: 15.3s
ٹوکنز: 797 tok

اسکور کے لحاظ سے سرفہرست ماڈلز

اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط)

اسکور vs ردِعمل کا وقت (اوسط)

کل آؤٹ پٹ ٹوکنز

اسکور vs کل آؤٹ پٹ ٹوکنز

زمرہ وار تفصیل

اینٹی اے آئی چالیں	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
GPT-5.2 Chat	8.7	7.9	91.7%	1		3.40s	606	1,807	0

کوڈنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
GPT-5.2 Chat	8.8	7.8	88.9%	1		9.82s	7,305	6,731	0

مشترکہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	11,019	1,243	0

ڈیٹا پارسنگ اور استخراج	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
GPT-5.2 Chat	10.0	10.0	100.0%	0		3.05s	7,140	980	0

ڈومین مخصوص	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
GPT-5.2 Chat	5.3	10.0	33.3%	0		17.78s	723	7,810	0

عمومی ذہانت	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
GPT-5.2 Chat	4.4	3.0	33.3%	1		3.20s	477	335	0

ہدایات کی پیروی	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
GPT-5.2 Chat	9.8	10.0	100.0%	0		5.51s	660	1,441	0

پہیلی حل کرنا	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
GPT-5.2 Chat	7.7	10.0	66.7%	0		4.10s	642	1,603	0

ٹول کالنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	5,445	555	0

معلومات عامہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
GPT-5.2 Chat	3.0	10.0	0.0%	0		6.89s	195	1,239	0

فوری موازنہ

موازنہ کی جوڑی تبدیل کریں

Seed-2.0-LitemediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsStep 3.7 Flashmedium Claude Opus 4.6mediumvsStep 3.7 Flashlow GPT-5.2 ChatnonevsGLM 5medium Claude Opus 4.6mediumvsDeepSeek V4 Prohigh GPT-5.2 ChatnonevsGLM 5.2medium Claude Opus 4.6mediumvsGPT-5.3 Chatnone DeepSeek V4 FlashhighvsGPT-5.2 Chatnone Claude Opus 4.7mediumvsGPT-5.2 Chatnone Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.7 Plusmedium Claude Opus 4.6mediumvsGemini 3 Flash Previewlow