AI BENCHY Compare

Inception: Mercury 2 vs MoonshotAI: Kimi K2.5

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-03

المقياس	Mercury 2 Mercury 2 medium الإصدار: 2026-02-24	Kimi K2.5 Kimi K2.5 medium الإصدار: 2026-01-27

المقياس	Mercury 2 Mercury 2 medium الإصدار: 2026-02-24	Kimi K2.5 Kimi K2.5 medium الإصدار: 2026-01-27
النتيجة	6.5	6.7
الترتيب	#89	#81
الموثوقية	10.0	10.0
الاتساق	8.8	6.8
اختبارات صحيحة
معدل النجاح لكل محاولة	51.7%	66.7%
اختبارات غير مستقرة	3	8
إجمالي مرات التشغيل	60	60
التكلفة لكل نتيجة	0.611	3.486
إجمالي التكلفة	$0.055	$0.272
سعر الإدخال	$0.250 / 1M	$0.400 / 1M
سعر الإخراج	$0.750 / 1M	$1.900 / 1M
إجمالي رموز الإدخال	32,570	31,717
رموز الإخراج	4,022	48,374
رموز الاستدلال	58,405	128,473
زمن الاستجابة (المتوسط)	2.27s	89.02s
زمن الاستجابة (الحد الأقصى)	14.63s	281.00s
زمن الاستجابة (الإجمالي)	43.20s	1157.32s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	7.2	6.5	66.7%	1		2.29s	4,519	270	8,514
Kimi K2.5	4.1	1.9	50.0%	2		215.89s	4,340	5,700	45,419

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	11,280	703	3,713

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3.1 Flash LiteminimalvsKimi K2.5medium Gemma 4 31Bnoneمتاح مجانًاvsKimi K2.5medium Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium Kimi K2.5mediumvsQwen3.7 Plusnone Mercury 2mediumvsQwen3.7 Plusnone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsRing-2.6-1Tnone Gemini 3.1 Flash LitenonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.5none Gemini 2.5 FlashnonevsMercury 2medium Gemini 3.1 Flash LiteminimalvsMercury 2medium