AI BENCHY Compare

النماذج المقارنة

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-07

المقياس	GLM 5 GLM 5 medium الإصدار: 2026-02-12	GLM 5.1 GLM 5.1 medium الإصدار: 2026-04-07	GLM 5 GLM 5 none الإصدار: 2026-02-12	GLM 5.1 GLM 5.1 none الإصدار: 2026-04-07

المقياس	GLM 5 GLM 5 medium الإصدار: 2026-02-12	GLM 5.1 GLM 5.1 medium الإصدار: 2026-04-07	GLM 5 GLM 5 none الإصدار: 2026-02-12	GLM 5.1 GLM 5.1 none الإصدار: 2026-04-07
النتيجة	8.3	8.0	6.7	5.6
الترتيب	#15	#23	#50	#67
الاتساق	8.1	9.0	10.0	8.2
اختبارات صحيحة
معدل النجاح لكل محاولة	84.3%	76.5%	52.9%	39.2%
اختبارات غير مستقرة	4	2	0	4
إجمالي مرات التشغيل	51	51	51	51
التكلفة لكل نتيجة	0.896	1.270	0.201	1.000
إجمالي التكلفة	$0.108	$0.153	$0.019	$0.050
??? ???????	$0.720 / 1M	$1.000 / 1M	$0.720 / 1M	$1.000 / 1M
??? ???????	$2.300 / 1M	$3.200 / 1M	$2.300 / 1M	$3.200 / 1M
رموز الإخراج	19,833	6,666	1,551	3,219
رموز الاستدلال	38,523	35,313	0	0
زمن الاستجابة (المتوسط)	17.15s	18.23s	3.77s	4.01s
زمن الاستجابة (الحد الأقصى)	28.96s	43.11s	11.07s	32.57s
زمن الاستجابة (الإجمالي)	154.32s	291.73s	37.66s	68.23s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GLM 5	10.0	10.0	100.0%	0		23.66s	480	7,056
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122
GLM 5	4.8	10.0	25.0%	0		2.37s	275	0
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206
GLM 5	3.0	10.0	0.0%	0		4.98s	406	0
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552
GLM 5	10.0	10.0	100.0%	0		5.78s	203	0
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314
GLM 5	3.0	10.0	0.0%	0		2.24s	19	0
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875
GLM 5	10.0	10.0	100.0%	0		3.27s	103	0
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617
GLM 5	10.0	10.0	100.0%	0		1.48s	61	0
GLM 5.1	8.3	10.0	50.0%	0		1.58s	66	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627
GLM 5	7.7	10.0	66.7%	0		2.05s	264	0
GLM 5.1	5.7	10.0	33.3%	0		1.48s	152	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0
GLM 5	10.0	10.0	100.0%	0		11.07s	220	0
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3 Flash PreviewnonevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewlowvsGLM 5.1medium Mistral Small 4mediumvsGLM 5.1none GPT-5 MinimediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium Nemotron 3 Supermediumمتاح مجانًاvsGLM 5none GPT-5.2 ChatnonevsGLM 5.1medium Grok 4.1 FastmediumvsGLM 5none MiniMax M2.5mediumمتاح مجانًاvsGLM 5.1none Hunter AlphamediumvsGLM 5none Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Gemini 3 Flash PreviewnonevsGLM 5medium