AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Z.ai: GLM 5.2

الملخص

مقارنة benchmark بين Claude Opus 4.8 و GLM 5.2: يتقدم Claude Opus 4.8 في متوسط النتيجة بـ 7.2 مقابل 7.1. لدى GLM 5.2 تكلفة benchmark أقل عند $0.076 مقابل $0.539. Claude Opus 4.8 أسرع عند 3.47s مقابل 6.34s، مع معدلات نجاح 61.9% مقابل 60.3%.

النموذج الموصى به: GLM 5.2 - Its score stays close to the best score here (7.1 vs 7.2), while costing about 7.1x less than Claude Opus 4.8.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-17

المقياس	Claude Opus 4.8 Claude Opus 4.8 none الإصدار: 2026-05-28	GLM 5.2 GLM 5.2 none الإصدار: 2026-06-17

المقياس	Claude Opus 4.8 Claude Opus 4.8 none الإصدار: 2026-05-28	GLM 5.2 GLM 5.2 none الإصدار: 2026-06-17
النتيجة	7.2	7.1
الترتيب	#57	#61
الموثوقية	10.0	9.9
الاتساق	9.2	9.6
اختبارات صحيحة
معدل النجاح لكل محاولة	61.9%	60.3%
اختبارات غير مستقرة	2	1
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	4.485	0.628
إجمالي التكلفة	$0.539	$0.076
سعر الإدخال	$5.000 / 1M	$1.400 / 1M
سعر الإخراج	$25.000 / 1M	$4.400 / 1M
إجمالي رموز الإدخال	67,104	38,671
رموز الإخراج	8,107	4,817
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	3.47s	6.34s
زمن الاستجابة (الحد الأقصى)	17.73s	20.69s
زمن الاستجابة (الإجمالي)	72.90s	133.19s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#57 Claude Opus 4.8

none

Cost: $0.053
Time: 22.0s
Tokens: 2,253 tok

#61 GLM 5.2

none

Invalid SVG

Cost: $0.033
Time: 87.7s
Tokens: 7,455 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
GLM 5.2	8.3	10.0	75.0%	0		3.70s	567	313	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
GLM 5.2	3.7	9.5	0.0%	0		7.55s	7,263	1,958	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
GLM 5.2	10.0	10.0	100.0%	0		20.69s	14,296	1,489	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
GLM 5.2	10.0	10.0	100.0%	0		7.17s	7,113	204	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	975	61	0
GLM 5.2	5.3	10.0	33.3%	0		6.50s	696	27	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
GLM 5.2	6.1	3.1	66.7%	1		4.42s	480	82	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
GLM 5.2	9.8	10.0	100.0%	0		3.84s	642	66	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
GLM 5.2	7.7	10.0	66.7%	0		3.31s	618	265	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
GLM 5.2	10.0	10.0	100.0%	0		15.76s	6,807	400	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
GLM 5.2	3.0	10.0	0.0%	0		3.41s	189	13	0

مقارنة سريعة

تبديل زوج المقارنة

Claude Opus 4.8nonevsGLM 5V Turbomedium Gemma 4 26B A4Bmediumمتاح مجانًاvsGLM 5.2none MiMo-V2-FlashmediumvsGLM 5.2none Step 3.7 FlashhighvsGLM 5.2none Claude Opus 4.8nonevsGemma 4 26B A4Bmediumمتاح مجانًا Claude Opus 4.8nonevsGrok 4.20medium Kimi K2.7 CodemediumvsGLM 5.2none Claude Opus 4.8nonevsMiMo-V2-Flashmedium Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Opus 4.8nonevsGLM 5.1medium Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsMiMo-V2.5-Promedium