AI BENCHY Compare

Laguna M.1 vs xAI: Grok 4.20

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-29

المقياس	Laguna M.1 Laguna M.1 none الإصدار: 2026-04-28 متاح مجانًا	Grok 4.20 Grok 4.20 none الإصدار: 2026-03-31

المقياس	Laguna M.1 Laguna M.1 none الإصدار: 2026-04-28 متاح مجانًا	Grok 4.20 Grok 4.20 none الإصدار: 2026-03-31
النتيجة	5.1	5.2
الترتيب	#117	#108
الموثوقية	9.9	غير متاح
الاتساق	8.7	9.5
اختبارات صحيحة
معدل النجاح لكل محاولة	33.3%	29.6%
اختبارات غير مستقرة	3	1
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	0.000	1.889
إجمالي التكلفة	$0.000	$0.095
??? ???????	$0.000 / 1M	$2.000 / 1M
??? ???????	$0.000 / 1M	$6.000 / 1M
رموز الإخراج	2,870	1,967
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	2.79s	1.11s
زمن الاستجابة (الحد الأقصى)	15.42s	6.04s
زمن الاستجابة (الإجمالي)	50.24s	20.02s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Laguna M.1	3.4	7.9	16.7%	1		1.23s	485	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Laguna M.1	7.5	3.8	66.7%	1		2.93s	543	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	312	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Laguna M.1	3.0	10.0	0.0%	0		4.32s	622	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Laguna M.1	10.0	10.0	100.0%	0		3.37s	246	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Laguna M.1	3.6	7.2	22.2%	1		5.50s	33	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Laguna M.1	4.0	10.0	0.0%	0		3.08s	212	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Laguna M.1	6.3	10.0	50.0%	0		683ms	80	0
Grok 4.20	4.8	10.0	0.0%	0		455ms	60	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Laguna M.1	3.2	10.0	0.0%	0		951ms	340	0
Grok 4.20	5.3	7.4	44.4%	1		487ms	242	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Laguna M.1	10.0	10.0	100.0%	0		7.54s	309	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

مقارنة سريعة

تبديل زوج المقارنة

Nemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًاvsGrok 4.20none Elephant AlphamediumvsGrok 4.20none MiniMax M2.7mediumvsGrok 4.20none Nemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًاvsLaguna M.1noneمتاح مجانًا Elephant AlphamediumvsLaguna M.1noneمتاح مجانًا MiniMax M2.7mediumvsLaguna M.1noneمتاح مجانًا Laguna M.1noneمتاح مجانًاvsQwen3 Coder Nextmedium Mistral Small 4mediumvsGrok 4.20none Laguna M.1noneمتاح مجانًاvsGLM 4.7 Flashmedium MiniMax M2.5mediumمتاح مجانًاvsGrok 4.20none Qwen3 Coder NextmediumvsGrok 4.20none Mistral Small 4mediumvsLaguna M.1noneمتاح مجانًا