قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs Z.ai: GLM 4.7 Flash

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	Inception: Mercury 2 none الإصدار: 2026-02-24	Z.ai: GLM 4.7 Flash medium الإصدار: 2026-01-19
الترتيب	#50	#52
متوسط الدرجة	34	33
الاتساق	89	61
التكلفة لكل نتيجة	0.147	1.018
إجمالي التكلفة	$0.006	$0.041
اختبارات صحيحة
معدل النجاح لكل محاولة	33.3%	44.4%
اختبارات غير مستقرة	2	7
رموز الإخراج	1,144	38,664
رموز الاستدلال	0	62,814

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		274	0
Z.ai: GLM 4.7 Flash	40	45	55.6%	2		1,085	5,597

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		131	0
Z.ai: GLM 4.7 Flash	100	21	33.3%	1		2,585	20,648

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	55	59	83.3%	1		180	0
Z.ai: GLM 4.7 Flash	50	100	50.0%	0		584	2,755

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	40	72	44.4%	1		46	0
Z.ai: GLM 4.7 Flash	100	44	33.3%	2		33,000	25,394

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	55	100	50.0%	0		82	0
Z.ai: GLM 4.7 Flash	50	58	66.7%	1		388	2,181

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		234	0
Z.ai: GLM 4.7 Flash	100	72	11.1%	1		798	5,225

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	100.0%	0		197	0
Z.ai: GLM 4.7 Flash	100	100	100.0%	0		224	1,014

مقارنة سريعة

تبديل زوج المقارنة

Mercury 2nonevsQwen3 Coder Nextmedium Qwen3 Coder NextnonevsGLM 4.7 Flashmedium Grok 4.1 FastnonevsGLM 4.7 Flashmedium Kimi K2.5nonevsGLM 4.7 Flashmedium MiMo-V2-FlashnonevsGLM 4.7 Flashmedium LFM2-24B-A2BnonevsGLM 4.7 Flashmedium GPT-4o-mininonevsGLM 4.7 Flashmedium Trinity Large Preview (free)noneمتاح مجانًاvsGLM 4.7 Flashmedium GPT-5.4nonevsGLM 4.7 Flashmedium Mercury 2nonevsMiniMax M2.5medium Qwen3.5-35B-A3BnonevsGLM 4.7 Flashmedium Qwen3.5-27BnonevsGLM 4.7 Flashmedium