AI BENCHY
قارن
❤️ Made by XCS

اسم النموذج

MoonshotAI: Kimi K2.5

تم إنشاء نتائج المعايير من مجموعات اختبارات Aibenchy في : 19‏/02‏/2026

المقياس MoonshotAI: Kimi K2.5
الترتيب#9
الشركةMoonshotAI
Score 6.42
الاتساق 8.00
التكلفة لكل نتيجة 2.4097
إجمالي التكلفة $0.16868
اختبارات صحيحة 7/12
معدل النجاح لكل محاولة 72.2%
اختبارات غير مستقرة 3
رموز الإخراج 30,235
رموز الاستدلال 53,179

تفصيل الفئات

الفئة اختبارات ناجحة بالكامل Score الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة درجة الاستدلال التكلفة
Anti-AI Tricks 2/2 10.00 10.00 100.0% 0 9.77 $0.00634
Data parsing and extraction 2/2 10.00 10.00 100.0% 0 9.67 $0.02325
Domain specific 0/3 1.00 4.41 33.3% 2 7.22 $0.09579
Instructions following 2/2 9.50 10.00 100.0% 0 9.42 $0.01428
Puzzle Solving 1/3 5.00 7.61 55.6% 1 9.26 $0.02904

النماذج المقارنة

قارن MoonshotAI: Kimi K2.5 مع...

#8 · X Ai

xAI: Grok 4.1 Fast

الاستدلال (medium)

Score: 6.42

الاتساق: 8.60

معدل النجاح لكل محاولة: 66.7%

اختبارات غير مستقرة: 2

التكلفة لكل نتيجة: 0.4800

اختبارات صحيحة: 7/12

إجمالي التكلفة: $0.03360

قارن

#10 · Google

Google: Gemini 3 Flash Preview

بدون استدلال

Score: 6.25

الاتساق: 8.60

معدل النجاح لكل محاولة: 66.7%

اختبارات غير مستقرة: 2

التكلفة لكل نتيجة: 0.0754

اختبارات صحيحة: 7/12

إجمالي التكلفة: $0.00528

قارن

#7 · Z.ai

Z.ai: GLM 5

الاستدلال (medium)

Score: 6.83

الاتساق: 7.86

معدل النجاح لكل محاولة: 80.6%

اختبارات غير مستقرة: 3

التكلفة لكل نتيجة: 1.3424

اختبارات صحيحة: 8/12

إجمالي التكلفة: $0.10740

قارن

مقارنة سريعة

قارن MoonshotAI: Kimi K2.5 مع...