يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)1.33sزمن الاستجابة (الحد الأقصى)3.39sزمن الاستجابة (الإجمالي)21.34sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3خطأ API: 1لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)25.25sزمن الاستجابة (الحد الأقصى)96.01sزمن الاستجابة (الإجمالي)252.48sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
الاتساق
9.6تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
9.5تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
التكلفة لكل نتيجة
0.143يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
0.314يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
إجمالي التكلفة
$0.015إجمالي التكلفة…
$0.035إجمالي التكلفة…
معدل النجاح لكل محاولة
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
72.9%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
اختبارات غير مستقرة
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
common.totalRuns
46 (16 x 2.88)common.totalRuns…
46 (16 x 2.88)common.totalRuns…
رموز الإخراج
4,669رموز الإخراج…
11,556رموز الإخراج…
رموز الاستدلال
0رموز الاستدلال…
106,408رموز الاستدلال…
زمن الاستجابة (المتوسط)
1.33sزمن الاستجابة (المتوسط)…
25.25sزمن الاستجابة (المتوسط)…
زمن الاستجابة (الحد الأقصى)
3.39sزمن الاستجابة (الحد الأقصى)…
96.01sزمن الاستجابة (الحد الأقصى)…
زمن الاستجابة (الإجمالي)
21.34sزمن الاستجابة (الإجمالي)…
252.48sزمن الاستجابة (الإجمالي)…
أفضل النماذج حسب الدرجة
الدرجة مقابل التكلفة الإجمالية
زمن الاستجابة (المتوسط)
متوسط الدرجة vs زمن الاستجابة (المتوسط)
تفصيل الفئات
حيل مضادة للذكاء الاصطناعي
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
6.0متوسط الدرجة عبر جميع اختبارات القياس.…
7.8تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
55.6%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.16sزمن الاستجابة (الحد الأقصى)1.47sزمن الاستجابة (الإجمالي)3.49sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
1.16sزمن الاستجابة (المتوسط)…
1,086رموز الإخراج…
0رموز الاستدلال…
Xiaomi: MiMo-V2-Flash
9.7متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)16.79sزمن الاستجابة (الحد الأقصى)20.83sزمن الاستجابة (الإجمالي)33.57sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
16.79sزمن الاستجابة (المتوسط)…
1,328رموز الإخراج…
18,739رموز الاستدلال…
مجمّع
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.20sزمن الاستجابة (الحد الأقصى)3.20sزمن الاستجابة (الإجمالي)3.20sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
3.20sزمن الاستجابة (المتوسط)…
339رموز الإخراج…
0رموز الاستدلال…
Xiaomi: MiMo-V2-Flash
9.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)75.68sزمن الاستجابة (الحد الأقصى)75.68sزمن الاستجابة (الإجمالي)75.68sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
75.68sزمن الاستجابة (المتوسط)…
442رموز الإخراج…
26,859رموز الاستدلال…
تحليل البيانات واستخراجها
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
9.9متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.22sزمن الاستجابة (الحد الأقصى)1.33sزمن الاستجابة (الإجمالي)2.44sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
1.22sزمن الاستجابة (المتوسط)…
399رموز الإخراج…
0رموز الاستدلال…
Xiaomi: MiMo-V2-Flash
5.5متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
50.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0msيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
0msزمن الاستجابة (المتوسط)…
153رموز الإخراج…
0رموز الاستدلال…
خاص بالمجال
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)942msزمن الاستجابة (الحد الأقصى)1.12sزمن الاستجابة (الإجمالي)2.83sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
942msزمن الاستجابة (المتوسط)…
568رموز الإخراج…
0رموز الاستدلال…
Xiaomi: MiMo-V2-Flash
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
7.2تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
55.6%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)96.01sزمن الاستجابة (الحد الأقصى)96.01sزمن الاستجابة (الإجمالي)96.01sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
96.01sزمن الاستجابة (المتوسط)…
8,374رموز الإخراج…
42,461رموز الاستدلال…
الذكاء العام
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
3.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)808msزمن الاستجابة (الحد الأقصى)808msزمن الاستجابة (الإجمالي)808msيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
808msزمن الاستجابة (المتوسط)…
23رموز الإخراج…
0رموز الاستدلال…
Xiaomi: MiMo-V2-Flash
3.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.34sزمن الاستجابة (الحد الأقصى)3.34sزمن الاستجابة (الإجمالي)3.34sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
3.34sزمن الاستجابة (المتوسط)…
30رموز الإخراج…
182رموز الاستدلال…
اتباع التعليمات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.13sزمن الاستجابة (الحد الأقصى)1.14sزمن الاستجابة (الإجمالي)2.27sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
1.13sزمن الاستجابة (المتوسط)…
574رموز الإخراج…
0رموز الاستدلال…
Xiaomi: MiMo-V2-Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.28sزمن الاستجابة (الحد الأقصى)7.37sزمن الاستجابة (الإجمالي)8.55sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
4.28sزمن الاستجابة (المتوسط)…
75رموز الإخراج…
3,504رموز الاستدلال…
Puzzle Solving
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)972msزمن الاستجابة (الحد الأقصى)1.13sزمن الاستجابة (الإجمالي)2.92sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
972msزمن الاستجابة (المتوسط)…
898رموز الإخراج…
0رموز الاستدلال…
Xiaomi: MiMo-V2-Flash
7.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.77sزمن الاستجابة (الحد الأقصى)5.26sزمن الاستجابة (الإجمالي)7.55sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
3.77sزمن الاستجابة (المتوسط)…
833رموز الإخراج…
1,948رموز الاستدلال…
استدعاء الأدوات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.39sزمن الاستجابة (الحد الأقصى)3.39sزمن الاستجابة (الإجمالي)3.39sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
3.39sزمن الاستجابة (المتوسط)…
782رموز الإخراج…
0رموز الاستدلال…
Xiaomi: MiMo-V2-Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)27.78sزمن الاستجابة (الحد الأقصى)27.78sزمن الاستجابة (الإجمالي)27.78sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…