AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.2 Chat

الملخص

مقارنة benchmark بين Claude Opus 4.8 (medium) و GPT-5.2 Chat: يتقدم Claude Opus 4.8 (medium) في متوسط النتيجة بـ 8.8 مقابل 8.5. لدى GPT-5.2 Chat تكلفة benchmark أقل عند $0.393 مقابل $1.107. GPT-5.2 Chat أسرع عند 7.13s مقابل 9.72s، مع معدلات نجاح 84.1% مقابل 74.6%.

النموذج الموصى به: GPT-5.2 Chat - Its score stays close to the best score here (8.5 vs 8.8), while costing about 2.8x less than Claude Opus 4.8 (medium).

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-10

المقياس	Claude Opus 4.8 Claude Opus 4.8 medium الإصدار: 2026-05-28	GPT-5.2 Chat GPT-5.2 Chat none الإصدار: 2025-12-11

المقياس	Claude Opus 4.8 Claude Opus 4.8 medium الإصدار: 2026-05-28	GPT-5.2 Chat GPT-5.2 Chat none الإصدار: 2025-12-11
النتيجة	8.8	8.5
الترتيب	#15	#22
الموثوقية	10.0	10.0
الاتساق	9.6	8.9
اختبارات صحيحة
معدل النجاح لكل محاولة	84.1%	74.6%
اختبارات غير مستقرة	1	3
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	6.512	2.803
إجمالي التكلفة	$1.107	$0.393
سعر الإدخال	$5.000 / 1M	$1.750 / 1M
سعر الإخراج	$25.000 / 1M	$14.000 / 1M
إجمالي رموز الإدخال	61,007	34,212
رموز الإخراج	26,495	23,744
رموز الاستدلال	5,901	0
زمن الاستجابة (المتوسط)	9.72s	7.13s
زمن الاستجابة (الحد الأقصى)	38.03s	38.52s
زمن الاستجابة (الإجمالي)	204.19s	149.69s

عرض إنشاء

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#15 Claude Opus 4.8

medium

التكلفة: $0.057
الوقت: 23.1s
الرموز: 2,412 tok

#22 GPT-5.2 Chat

none

التكلفة: $0.010
الوقت: 15.3s
الرموز: 797 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	834	1,179	478
GPT-5.2 Chat	8.7	7.9	91.7%	1		3.40s	606	1,807	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		15.33s	10,590	9,945	1,381
GPT-5.2 Chat	8.8	7.8	88.9%	1		9.82s	7,305	6,731	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	9.8	10.0	100.0%	0		38.03s	23,561	5,260	1,588
GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	11,019	1,243	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	7.1	5.6	83.3%	1		12.29s	10,503	481	312
GPT-5.2 Chat	10.0	10.0	100.0%	0		3.05s	7,140	980	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	5.3	10.0	33.3%	0		14.59s	975	7,477	900
GPT-5.2 Chat	5.3	10.0	33.3%	0		17.78s	723	7,810	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		2.46s	708	237	0
GPT-5.2 Chat	4.4	3.0	33.3%	1		3.20s	477	335	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		3.32s	909	373	320
GPT-5.2 Chat	9.8	10.0	100.0%	0		5.51s	660	1,441	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	894	791	483
GPT-5.2 Chat	7.7	10.0	66.7%	0		4.10s	642	1,603	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		8.96s	11,775	301	225
GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	5,445	555	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	3.0	10.0	0.0%	0		6.14s	258	451	214
GPT-5.2 Chat	3.0	10.0	0.0%	0		6.89s	195	1,239	0

مقارنة سريعة

تبديل زوج المقارنة

Seed-2.0-LitemediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsStep 3.7 Flashmedium GPT-5.2 ChatnonevsGLM 5medium GPT-5.2 ChatnonevsGrok 4.5medium GPT-5.2 ChatnonevsGLM 5.2medium DeepSeek V4 FlashhighvsGPT-5.2 Chatnone Claude Opus 4.7mediumvsGPT-5.2 Chatnone Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.7 Plusmedium Nemotron 3 Ultra 550b A55bmediumمتاح مجانًاvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGemini 3.5 Flashlow