التنقل
AI BENCHY
قارن الرسوم البيانية
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Inception: Mercury 2 vs MiniMax: MiniMax M2.5

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس Inception: Mercury 2 medium الإصدار: 2026-02-24 MiniMax: MiniMax M2.5 medium الإصدار: 2026-02-12
الترتيب #35 #42
متوسط الدرجة 54 48
الاتساق 83 58
التكلفة لكل نتيجة 0.622 4.937
إجمالي التكلفة $0.044 $0.247
اختبارات صحيحة
معدل النجاح لكل محاولة 57.8% 62.2%
اختبارات غير مستقرة 3 8
رموز الإخراج 3,571 107,019
رموز الاستدلال 45,379 204,504

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 73 98 66.7% 0 2,531 2,410
MiniMax: MiniMax M2.5 93 79 88.9% 1 286 45,112
مجمّع النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 100 100.0% 0 268 4,887
MiniMax: MiniMax M2.5 100 21 66.7% 1 740 9,713
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 55 59 83.3% 1 183 1,656
MiniMax: MiniMax M2.5 100 17 66.7% 2 266 3,835
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 72 11.1% 1 41 30,754
MiniMax: MiniMax M2.5 100 44 22.2% 2 105,047 133,487
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 100 100.0% 0 14 958
MiniMax: MiniMax M2.5 80 68 83.3% 1 252 1,873
Puzzle Solving النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 17 75 22.2% 1 354 2,758
MiniMax: MiniMax M2.5 40 72 44.4% 1 159 9,547
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 100 100.0% 0 180 1,956
MiniMax: MiniMax M2.5 100 100 100.0% 0 269 937

مقارنة سريعة

تبديل زوج المقارنة