AI BENCHY Compare

Inception: Mercury 2 vs Laguna M.1

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-29

المقياس	Mercury 2 Mercury 2 medium الإصدار: 2026-02-24	Laguna M.1 Laguna M.1 medium الإصدار: 2026-04-28 متاح مجانًا

المقياس	Mercury 2 Mercury 2 medium الإصدار: 2026-02-24	Laguna M.1 Laguna M.1 medium الإصدار: 2026-04-28 متاح مجانًا
النتيجة	6.5	6.3
الترتيب	#71	#74
الموثوقية	غير متاح	10.0
الاتساق	8.6	8.6
اختبارات صحيحة
معدل النجاح لكل محاولة	53.7%	53.7%
اختبارات غير مستقرة	3	3
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	0.580	0.000
إجمالي التكلفة	$0.047	$0.000
??? ???????	$0.250 / 1M	$0.000 / 1M
??? ???????	$0.750 / 1M	$0.000 / 1M
رموز الإخراج	3,972	63,822
رموز الاستدلال	48,333	0
زمن الاستجابة (المتوسط)	2.21s	13.90s
زمن الاستجابة (الحد الأقصى)	14.63s	53.14s
زمن الاستجابة (الإجمالي)	37.51s	250.28s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
Laguna M.1	6.6	10.0	50.0%	0		9.15s	7,839	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		1.53s	249	2,213
Laguna M.1	4.3	1.1	66.7%	1		35.61s	14,327	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
Laguna M.1	3.0	10.0	0.0%	0		53.14s	12,272	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
Laguna M.1	10.0	10.0	100.0%	0		4.93s	2,296	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
Laguna M.1	5.3	7.2	44.4%	1		24.14s	19,020	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
Laguna M.1	4.1	10.0	0.0%	0		6.86s	1,294	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
Laguna M.1	10.0	10.0	100.0%	0		4.30s	1,626	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	3.9	7.5	22.2%	1		934ms	354	2,758
Laguna M.1	3.6	7.2	22.2%	1		6.97s	3,978	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
Laguna M.1	10.0	10.0	100.0%	0		6.31s	1,170	0

مقارنة سريعة

تبديل زوج المقارنة

Mercury 2mediumvsMiMo-V2-Omninone Laguna M.1mediumمتاح مجانًاvsMiMo-V2-Omninone Laguna M.1mediumمتاح مجانًاvsGLM 5V Turbonone Laguna M.1mediumمتاح مجانًاvsQwen3.5-Flashnone Mercury 2mediumvsGLM 5none Gemma 4 26B A4Bnoneمتاح مجانًاvsLaguna M.1mediumمتاح مجانًا Seed-2.0-LitenonevsLaguna M.1mediumمتاح مجانًا DeepSeek V4 PrononevsMercury 2medium Gemini 2.5 FlashnonevsLaguna M.1mediumمتاح مجانًا Laguna M.1mediumمتاح مجانًاvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGPT-5.5none Mercury 2mediumvsQwen3.5 Plus 2026-02-15none