قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs MoonshotAI: Kimi K2.5

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	Inception: Mercury 2 none الإصدار: 2026-02-24	MoonshotAI: Kimi K2.5 medium الإصدار: 2026-01-27
الترتيب	#50	#29
متوسط الدرجة	34	64
الاتساق	89	78
التكلفة لكل نتيجة	0.147	2.082
إجمالي التكلفة	$0.006	$0.188
زمن الاستجابة (المتوسط)	594ms	69.84s
زمن الاستجابة (الحد الأقصى)	1.27s	137.29s
زمن الاستجابة (الإجمالي)	8.91s	558.72s
اختبارات صحيحة
معدل النجاح لكل محاولة	33.3%	73.3%
اختبارات غير مستقرة	2	4
رموز الإخراج	1,144	34,638
رموز الاستدلال	0	68,234

أفضل النماذج حسب الدرجة

زمن الاستجابة (المتوسط)

الدرجة مقابل التكلفة الإجمالية

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		466ms	274	0
MoonshotAI: Kimi K2.5	70	72	88.9%	1		85.28s	335	6,255

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		606ms	131	0
MoonshotAI: Kimi K2.5	100	100	100.0%	0		71.37s	703	3,713

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	55	59	83.3%	1		667ms	180	0
MoonshotAI: Kimi K2.5	99	100	100.0%	0		49.78s	563	7,940

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	40	72	44.4%	1		534ms	46	0
MoonshotAI: Kimi K2.5	100	44	33.3%	2		137.29s	20,753	30,564

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	55	100	50.0%	0		551ms	82	0
MoonshotAI: Kimi K2.5	100	100	100.0%	0		92.47s	5,371	6,547

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		533ms	234	0
MoonshotAI: Kimi K2.5	40	73	44.4%	1		45.40s	6,671	12,403

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	100.0%	0		1.27s	197	0
MoonshotAI: Kimi K2.5	100	100	100.0%	0		31.74s	242	812

مقارنة سريعة

تبديل زوج المقارنة

Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Gemini 3 Flash PreviewnonevsKimi K2.5medium Gemini 3.1 Flash Lite PreviewnonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.3 Chatnone Gemini 2.5 FlashnonevsKimi K2.5medium DeepSeek V3.2nonevsKimi K2.5medium Gemini 3.1 Flash Lite PreviewlowvsKimi K2.5medium Kimi K2.5mediumvsQwen3.5-122B-A10Bnone