AI BENCHY Compare

Inception: Mercury 2 vs Elephant Alpha

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-29

المقياس	Mercury 2 Mercury 2 medium الإصدار: 2026-02-24	Elephant Alpha Elephant Alpha none الإصدار: 2026-04-14

المقياس	Mercury 2 Mercury 2 medium الإصدار: 2026-02-24	Elephant Alpha Elephant Alpha none الإصدار: 2026-04-14
النتيجة	6.5	5.2
الترتيب	#92	#136
الموثوقية	10.0	غير متاح
الاتساق	8.8	9.6
اختبارات صحيحة
معدل النجاح لكل محاولة	51.7%	29.8%
اختبارات غير مستقرة	3	1
إجمالي مرات التشغيل	60	60
التكلفة لكل نتيجة	0.611	0.000
إجمالي التكلفة	$0.055	$0.000
سعر الإدخال	$0.250 / 1M	$0.000 / 1M
سعر الإخراج	$0.750 / 1M	$0.000 / 1M
رموز الإخراج	4,022	2,573
رموز الاستدلال	58,405	0
زمن الاستجابة (المتوسط)	2.27s	1.22s
زمن الاستجابة (الحد الأقصى)	14.63s	3.81s
زمن الاستجابة (الإجمالي)	43.20s	22.03s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
Elephant Alpha	6.6	10.0	50.0%	0		963ms	610	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	7.2	6.5	66.7%	1		2.29s	270	8,514
Elephant Alpha	4.7	6.7	33.3%	1		1.39s	375	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
Elephant Alpha	3.0	10.0	0.0%	0		3.81s	731	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
Elephant Alpha	6.5	10.0	50.0%	0		1.04s	246	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
Elephant Alpha	3.0	10.0	0.0%	0		927ms	24	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
Elephant Alpha	4.0	10.0	0.0%	0		854ms	106	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
Elephant Alpha	9.8	10.0	100.0%	0		1.03s	81	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	5.4	10.0	33.3%	0		949ms	361	2,781
Elephant Alpha	4.2	10.0	0.0%	0		807ms	170	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
Elephant Alpha	3.0	10.0	0.0%	0		2.79s	230	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	3.0	10.0	0.0%	0		2.58s	22	3,748
Elephant Alpha	0.0	0.0	0.0%	0		0ms	0	0

مقارنة سريعة

تبديل زوج المقارنة

Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Gemini 2.5 FlashnonevsMercury 2medium MiniMax M2.7mediumvsElephant Alphanone Mistral Small 4mediumvsElephant Alphanone Gemini 3.1 Flash LiteminimalvsMercury 2medium Mercury 2mediumvsGLM 5none Gemma 4 31Bnoneمتاح مجانًاvsMercury 2medium MiniMax M2.5mediumمتاح مجانًاvsElephant Alphanone DeepSeek V3.2nonevsMercury 2medium DeepSeek V4 PrononevsMercury 2medium