AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Z.ai: GLM 5.2

الملخص

مقارنة benchmark بين Claude Opus 4.8 و GLM 5.2: يتقدم Claude Opus 4.8 في متوسط النتيجة بـ 8.8 مقابل 8.7. لدى GLM 5.2 تكلفة benchmark أقل عند $0.324 مقابل $1.107. Claude Opus 4.8 أسرع عند 9.66s مقابل 23.28s، مع معدلات نجاح 84.1% مقابل 84.1%.

النموذج الموصى به: GLM 5.2 - Its score stays close to the best score here (8.7 vs 8.8), while costing about 3.4x less than Claude Opus 4.8.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-17

المقياس	Claude Opus 4.8 Claude Opus 4.8 medium الإصدار: 2026-05-28	GLM 5.2 GLM 5.2 medium الإصدار: 2026-06-17

المقياس	Claude Opus 4.8 Claude Opus 4.8 medium الإصدار: 2026-05-28	GLM 5.2 GLM 5.2 medium الإصدار: 2026-06-17
النتيجة	8.8	8.7
الترتيب	#12	#14
الموثوقية	10.0	9.5
الاتساق	9.6	8.4
اختبارات صحيحة
معدل النجاح لكل محاولة	84.1%	84.1%
اختبارات غير مستقرة	1	4
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	6.512	2.159
إجمالي التكلفة	$1.107	$0.324
سعر الإدخال	$5.000 / 1M	$1.400 / 1M
سعر الإخراج	$25.000 / 1M	$4.400 / 1M
إجمالي رموز الإدخال	61,007	37,199
رموز الإخراج	26,495	12,261
رموز الاستدلال	5,901	49,500
زمن الاستجابة (المتوسط)	9.66s	23.28s
زمن الاستجابة (الحد الأقصى)	38.03s	101.36s
زمن الاستجابة (الإجمالي)	202.89s	488.94s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#12 Claude Opus 4.8

medium

Cost: $0.057
Time: 23.1s
Tokens: 2,412 tok

#14 GLM 5.2

medium

Cost: $0.041
Time: 195.8s
Tokens: 9,287 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	834	1,179	478
GLM 5.2	10.0	10.0	100.0%	0		5.89s	639	497	2,634

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		15.33s	10,590	9,945	1,381
GLM 5.2	8.2	7.2	88.9%	1		40.96s	7,317	1,475	17,123

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	9.8	10.0	100.0%	0		38.03s	23,561	5,260	1,588
GLM 5.2	10.0	10.0	100.0%	0		51.96s	12,696	458	4,531

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	7.1	5.6	83.3%	1		12.29s	10,503	481	312
GLM 5.2	10.0	10.0	100.0%	0		13.44s	7,149	348	2,345

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	5.3	10.0	33.3%	0		14.15s	975	7,477	900
GLM 5.2	4.1	4.4	44.5%	2		45.47s	551	8,188	11,606

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		2.46s	708	237	0
GLM 5.2	10.0	10.0	100.0%	0		17.39s	498	54	1,842

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		3.32s	909	373	320
GLM 5.2	9.9	10.0	100.0%	0		7.90s	678	94	1,518

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	894	791	483
GLM 5.2	8.2	7.2	88.9%	1		13.13s	672	536	4,822

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		8.96s	11,775	301	225
GLM 5.2	10.0	10.0	100.0%	0		20.41s	6,861	230	550

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	3.0	10.0	0.0%	0		6.14s	258	451	214
GLM 5.2	3.0	10.0	0.0%	0		34.25s	138	381	2,529

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.2 ChatnonevsGLM 5.2medium Claude Opus 4.8mediumvsGPT-5.2 Chatnone DeepSeek V4 FlashhighvsGLM 5.2medium Claude Opus 4.8mediumvsGemini 3.5 Flashlow Claude Opus 4.8mediumvsGPT-5.5low Claude Opus 4.8mediumvsDeepSeek V4 Flashhigh Gemini 3.5 FlashlowvsGLM 5.2medium GPT-5.5lowvsGLM 5.2medium Step 3.7 FlashlowvsGLM 5.2medium Claude Opus 4.8mediumvsGemini 3.5 Flashhigh DeepSeek V4 ProhighvsGLM 5.2medium Claude Opus 4.8mediumvsStep 3.7 Flashlow