التنقل
AI BENCHY
قارن الرسوم البيانية المنهجية
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs MoonshotAI: Kimi K2.5

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس Google: Gemini 3.1 Flash Lite Preview low الإصدار: 2026-03-03 MoonshotAI: Kimi K2.5 medium الإصدار: 2026-01-27
متوسط الدرجة 7.6 6.4
الترتيب #13 #30
اختبارات صحيحة
الاتساق 10.0 7.8
التكلفة لكل نتيجة 0.170 2.082
إجمالي التكلفة $0.019 $0.188
معدل النجاح لكل محاولة 73.3% 73.3%
اختبارات غير مستقرة 0 4
common.totalRuns 45 (15 x 3) 45 (15 x 3)
رموز الإخراج 1,542 34,638
رموز الاستدلال 6,888 68,234
زمن الاستجابة (المتوسط) 3.49s 69.84s
زمن الاستجابة (الحد الأقصى) 11.91s 137.29s
زمن الاستجابة (الإجمالي) 52.29s 558.72s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview 7.0 10.0 66.7% 0 2.18s 456 1,224
MoonshotAI: Kimi K2.5 7.0 7.2 88.9% 1 85.28s 335 6,255
مجمّع النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 0.0% 0 11.91s 225 762
MoonshotAI: Kimi K2.5 10.0 10.0 100.0% 0 71.37s 703 3,713
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview 9.9 10.0 100.0% 0 3.00s 291 696
MoonshotAI: Kimi K2.5 9.9 10.0 100.0% 0 49.78s 563 7,940
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview 4.0 10.0 33.3% 0 2.36s 18 1,212
MoonshotAI: Kimi K2.5 10.0 4.4 33.3% 2 137.29s 20,753 30,564
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 1.49s 72 753
MoonshotAI: Kimi K2.5 10.0 10.0 100.0% 0 92.47s 5,371 6,547
Puzzle Solving النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 2.76s 243 1,248
MoonshotAI: Kimi K2.5 4.0 7.3 44.4% 1 45.40s 6,671 12,403
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 9.54s 237 993
MoonshotAI: Kimi K2.5 10.0 10.0 100.0% 0 31.74s 242 812

مقارنة سريعة

تبديل زوج المقارنة