قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs OpenAI: GPT-5.4

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	MoonshotAI: Kimi K2.5 medium الإصدار: 2026-01-27	OpenAI: GPT-5.4 none الإصدار: 2026-03-05
متوسط الدرجة	6.4	4.6
الترتيب	#30	#45
اختبارات صحيحة
الاتساق	7.8	8.9
التكلفة لكل نتيجة	2.082	1.496
إجمالي التكلفة	$0.188	$0.090
معدل النجاح لكل محاولة	73.3%	44.4%
اختبارات غير مستقرة	4	2
common.totalRuns	45 (15 x 3)	45 (15 x 3)
رموز الإخراج	34,638	1,635
رموز الاستدلال	68,234	0
زمن الاستجابة (المتوسط)	69.84s	1.46s
زمن الاستجابة (الحد الأقصى)	137.29s	2.89s
زمن الاستجابة (الإجمالي)	558.72s	21.86s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MoonshotAI: Kimi K2.5	7.0	7.2	88.9%	1		85.28s	335	6,255
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MoonshotAI: Kimi K2.5	9.9	10.0	100.0%	0		49.78s	563	7,940
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MoonshotAI: Kimi K2.5	10.0	4.4	33.3%	2		137.29s	20,753	30,564
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MoonshotAI: Kimi K2.5	4.0	7.3	44.4%	1		45.40s	6,671	12,403
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

مقارنة سريعة

تبديل زوج المقارنة

Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none MiniMax M2.5mediumvsGPT-5.4none Claude Sonnet 4.6nonevsKimi K2.5medium Gemini 3 Flash PreviewnonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Mercury 2mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewnonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsKimi K2.5medium Gemini 2.5 FlashnonevsKimi K2.5medium DeepSeek V3.2nonevsKimi K2.5medium GPT-5.4nonevsQwen3.5-35B-A3Bmedium