النماذج المقارنة

مقارنة benchmark بين GLM 5 (medium) vs GLM 5.1 (medium) vs Kimi K2.5 (medium) vs Qwen3.6 Plus Preview (medium): يتصدر GLM 5 (medium) في النتيجة بقيمة 7.7. يتصدر GLM 5 (medium) في الموثوقية بقيمة 10.0. يمتلك Qwen3.6 Plus Preview (medium) أقل إجمالي التكلفة عند $0.000. Qwen3.6 Plus Preview (medium) هو الأسرع عند 15.25s.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-25

الترتيب: #49
إجمالي رموز الإخراج: 124,566
زمن الاستجابة (المتوسط): 33.54s
إجمالي التكلفة: $0.307

الترتيب: #82
إجمالي رموز الإخراج: 152,552
زمن الاستجابة (المتوسط): 46.77s
إجمالي التكلفة: $0.535

الترتيب: #85
إجمالي رموز الإخراج: 227,367
زمن الاستجابة (المتوسط): 99.00s
إجمالي التكلفة: $0.600

الترتيب: #190
إجمالي رموز الإخراج: 63,350
زمن الاستجابة (المتوسط): 15.25s
إجمالي التكلفة: $0.000

النموذج الموصى به GLM 5 (medium)

It has the best score here (7.7), while costing about 1.8x less than النماذج الأخرى في هذه المقارنة.

مقارنة تفصيلية

المقياس	GLM 5 GLM 5 medium الإصدار: 2026-02-12	GLM 5.1 GLM 5.1 medium الإصدار: 2026-04-07	Kimi K2.5 Kimi K2.5 medium الإصدار: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium الإصدار: 2026-04-20 متاح مجانًا

المقياس	GLM 5 GLM 5 medium الإصدار: 2026-02-12	GLM 5.1 GLM 5.1 medium الإصدار: 2026-04-07	Kimi K2.5 Kimi K2.5 medium الإصدار: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium الإصدار: 2026-04-20 متاح مجانًا
النتيجة	7.7	7.1	7.0	4.9
الترتيب	#49	#82	#85	#190
الموثوقية	10.0	8.3	10.0	غير متاح
الاتساق	8.1	8.4	7.0	8.6
اختبارات صحيحة
معدل النجاح لكل محاولة	78.8%	69.7%	65.2%	40.9%
اختبارات غير مستقرة	4	4	8	0
إجمالي مرات التشغيل	63	66	66	57
التكلفة لكل نتيجة	1.668	4.202	4.789	0.000
إجمالي التكلفة	$0.307	$0.535	$0.600	$0.000
سعر الإدخال	$0.950 / 1M	$0.966 / 1M	$0.571 / 1M	$0.000 / 1M
سعر الإخراج	$2.551 / 1M	$3.036 / 1M	$2.850 / 1M	$0.000 / 1M
إجمالي رموز الإدخال	35,224	82,623	118,448	32,639
رموز الإخراج	21,570	16,089	62,124	1,153
رموز الاستدلال	102,996	136,463	165,243	62,197
زمن الاستجابة (المتوسط)	33.54s	46.77s	99.00s	15.25s
زمن الاستجابة (الحد الأقصى)	99.85s	308.75s	281.00s	43.55s
زمن الاستجابة (الإجمالي)	435.99s	982.16s	1485.04s	182.96s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#49 GLM 5

medium

التكلفة: $0.005
الوقت: 20.7s
الرموز: 2,068 tok

#82 GLM 5.1

medium

SVG غير صالح

التكلفة: $0.000
الوقت: 300.0s
الرموز: 0 tok

#85 MoonshotAI: Kimi K2.5

medium

التكلفة: $0.030
الوقت: 58.6s
الرموز: 8,683 tok

#190 Qwen3.6 Plus Preview

medium

لم يتم إنشاء نتيجة عرض لهذا النموذج بعد.

التكلفة: $0.000
الوقت: -
الرموز: 0 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

الفئة:

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GLM 5	10.0	10.0	100.0%	0	23.66s	555	480	7,056
GLM 5.1	10.0	10.0	100.0%	0	8.31s	555	401	5,122
Kimi K2.5	7.3	5.8	83.3%	2	51.38s	634	2,789	8,880
Qwen3.6 Plus Preview	8.3	10.0	75.0%	0	11.69s	501	61	5,812

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GLM 5	10.0	10.0	100.0%	0	74.30s	7,254	2,997	52,930
GLM 5.1	4.6	3.7	44.5%	2	109.63s	5,702	4,871	37,826
Kimi K2.5	6.1	4.6	66.7%	2	217.49s	6,935	5,705	74,693
Qwen3.6 Plus Preview	9.8	3.3	0.0%	0	0ms	0	0	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GLM 5	5.0	5.0	50.0%	28.96s	12,804	662	3,242
GLM 5.1	9.8	10.0	100.0%	175.93s	66,926	4,761	65,248
Kimi K2.5	6.7	9.1	50.0%	89.19s	95,416	14,448	11,209
Qwen3.6 Plus Preview	5.0	5.0	50.0%	34.95s	14,934	452	13,073

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GLM 5	7.1	5.6	83.3%	1	8.90s	5,508	567	3,734
GLM 5.1	10.0	10.0	100.0%	0	9.33s	7,107	991	4,552
Kimi K2.5	10.0	10.0	100.0%	0	49.78s	7,020	563	7,940
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0	14.95s	7,782	270	10,706

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GLM 5	3.5	4.4	33.3%	2	0ms	260	13,176	14,137
GLM 5.1	5.3	10.0	33.3%	0	29.77s	489	969	11,314
Kimi K2.5	3.5	4.4	33.3%	2	137.29s	485	20,753	30,564
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0	22.08s	665	49	26,895

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GLM 5	6.1	3.1	66.7%	1	14.69s	477	2,020	2,248
GLM 5.1	10.0	10.0	100.0%	0	20.95s	477	2,875	2,875
Kimi K2.5	6.5	3.4	66.7%	1	69.73s	480	3,815	4,262
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0	0ms	0	0	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GLM 5	10.0	10.0	100.0%	0	7.25s	636	1,001	2,129
GLM 5.1	6.4	5.8	66.7%	1	7.47s	634	204	1,617
Kimi K2.5	10.0	10.0	100.0%	0	92.47s	675	5,371	6,547
Qwen3.6 Plus Preview	6.5	10.0	50.0%	0	3.40s	381	27	1,383

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GLM 5	10.0	10.0	100.0%	0	11.33s	609	33	4,076
GLM 5.1	8.2	7.2	88.9%	1	31.64s	609	935	5,730
Kimi K2.5	5.3	7.3	44.4%	1	43.23s	659	8,426	12,692
Qwen3.6 Plus Preview	5.3	10.0	33.3%	0	7.52s	183	27	2,998

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GLM 5	10.0	10.0	100.0%	15.93s	6,935	233	994
GLM 5.1	3.0	10.0	0.0%	0ms	0	0	0
Kimi K2.5	10.0	10.0	100.0%	31.74s	5,933	242	812
Qwen3.6 Plus Preview	10.0	10.0	100.0%	5.87s	8,193	267	1,330

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GLM 5	3.0	10.0	0.0%	67.37s	186	401	12,450
GLM 5.1	3.0	10.0	0.0%	29.40s	124	82	2,179
Kimi K2.5	3.0	10.0	0.0%	83.95s	211	12	7,644
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0ms	0	0	0

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3.5 FlashnonevsKimi K2.5medium GPT-5.6 LunahighvsGLM 5medium Claude Opus 4.8lowvsGLM 5medium Qwen3.7 PlusnonevsGLM 5.1medium DeepSeek V4 FlashhighvsGLM 5medium DeepSeek V4 ProhighvsGLM 5medium DeepSeek V4 PrononevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.6 Solnone KAT-Coder-Pro V2.5highvsGLM 5.1medium Step 3.7 FlashlowvsGLM 5.1medium Kimi K2.5mediumvsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsGLM 5.1medium