قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs MoonshotAI: Kimi K2.5

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	Inception: Mercury 2 medium الإصدار: 2026-02-24	MoonshotAI: Kimi K2.5 none الإصدار: 2026-01-27
الترتيب	#35	#48
متوسط الدرجة	54	37
الاتساق	83	85
التكلفة لكل نتيجة	0.622	0.359
إجمالي التكلفة	$0.044	$0.015
زمن الاستجابة (المتوسط)	2.47s	12.90s
زمن الاستجابة (الحد الأقصى)	14.63s	42.13s
زمن الاستجابة (الإجمالي)	34.56s	103.17s
اختبارات صحيحة
معدل النجاح لكل محاولة	57.8%	35.6%
اختبارات غير مستقرة	3	3
رموز الإخراج	3,571	1,924
رموز الاستدلال	45,379	0

أفضل النماذج حسب الدرجة

زمن الاستجابة (المتوسط)

الدرجة مقابل التكلفة الإجمالية

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	73	98	66.7%	0		1.30s	2,531	2,410
MoonshotAI: Kimi K2.5	27	79	11.1%	1		11.38s	363	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	100.0%	0		3.28s	268	4,887
MoonshotAI: Kimi K2.5	100	21	33.3%	1		19.16s	748	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	55	59	83.3%	1		1.11s	183	1,656
MoonshotAI: Kimi K2.5	54	58	83.3%	1		42.13s	187	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	72	11.1%	1		6.48s	41	30,754
MoonshotAI: Kimi K2.5	40	100	33.3%	0		4.38s	29	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	100.0%	0		1.07s	14	958
MoonshotAI: Kimi K2.5	55	100	50.0%	0		2.67s	60	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	17	75	22.2%	1		934ms	354	2,758
MoonshotAI: Kimi K2.5	100	100	0.0%	0		4.73s	317	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	100.0%	0		1.89s	180	1,956
MoonshotAI: Kimi K2.5	100	100	100.0%	0		13.99s	220	0

مقارنة سريعة

تبديل زوج المقارنة

Gemini 2.5 FlashnonevsMercury 2medium DeepSeek V3.2nonevsMercury 2medium Mercury 2mediumvsQwen3.5-122B-A10Bnone Mercury 2mediumvsGLM 5none Kimi K2.5nonevsQwen3 Coder Nextmedium Kimi K2.5nonevsGLM 4.7 Flashmedium Mercury 2mediumvsQwen3.5-Flashnone Mercury 2mediumvsQwen3.5-27Bnone Mercury 2mediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGPT-5.4none Mercury 2mediumvsQwen3.5 Plus 2026-02-15none MiniMax M2.5mediumvsKimi K2.5none