مقارنة benchmark بين MiMo-V2.5-Pro و GLM 5: يتقدم GLM 5 في متوسط النتيجة بـ 6.1 مقابل 5.5. لدى MiMo-V2.5-Pro تكلفة benchmark أقل عند $0.017 مقابل $0.027. MiMo-V2.5-Pro أسرع عند 1.78s مقابل 4.03s، مع معدلات نجاح 39.7% مقابل 44.4%.
النموذج الموصى به: MiMo-V2.5-Pro - Its score stays close to the best score here (5.5 vs 6.1), while costing about 1.6x less than GLM 5.
تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-04
10.0درجة النجاح من المحاولة الأولى: 10.0 تعني عدم وجود إخفاقات قابلة لإعادة المحاولة من واجهة API الهدف أو حدود المعدل قبل النداءات الناجحة؛ الإخفاقات المسجلة تخفض الدرجة.…
10.0درجة النجاح من المحاولة الأولى: 10.0 تعني عدم وجود إخفاقات قابلة لإعادة المحاولة من واجهة API الهدف أو حدود المعدل قبل النداءات الناجحة؛ الإخفاقات المسجلة تخفض الدرجة.…
الاتساق
8.6تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
9.7تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
اختبارات صحيحة
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 11لم يتبع التعليمات: 4زمن الاستجابة (المتوسط)1.78sزمن الاستجابة (الحد الأقصى)8.32sزمن الاستجابة (الإجمالي)37.42sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 12زمن الاستجابة (المتوسط)4.03sزمن الاستجابة (الحد الأقصى)11.07sزمن الاستجابة (الإجمالي)56.37sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
معدل النجاح لكل محاولة
39.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
44.4%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
اختبارات غير مستقرة
4الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
إجمالي مرات التشغيل
63إجمالي مرات التشغيل…
63إجمالي مرات التشغيل…
التكلفة لكل نتيجة
0.648يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
0.263يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
إجمالي التكلفة
$0.017إجمالي التكلفة (السعر الحالي)…
$0.027إجمالي التكلفة (السعر الحالي)…
سعر الإدخال
$0.435 / 1Mسعر الإدخال…
$0.600 / 1Mسعر الإدخال…
سعر الإخراج
$0.870 / 1Mسعر الإخراج…
$1.920 / 1Mسعر الإخراج…
إجمالي رموز الإدخال
30,724إجمالي رموز الإدخال…
37,135إجمالي رموز الإدخال…
رموز الإخراج
3,043رموز الإخراج…
1,989رموز الإخراج…
رموز الاستدلال
0رموز الاستدلال…
0رموز الاستدلال…
زمن الاستجابة (المتوسط)
1.78sزمن الاستجابة (المتوسط)…
4.03sزمن الاستجابة (المتوسط)…
زمن الاستجابة (الحد الأقصى)
8.32sزمن الاستجابة (الحد الأقصى)…
11.07sزمن الاستجابة (الحد الأقصى)…
زمن الاستجابة (الإجمالي)
37.42sزمن الاستجابة (الإجمالي)…
56.37sزمن الاستجابة (الإجمالي)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
8.1تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
8.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.67sزمن الاستجابة (الحد الأقصى)8.32sزمن الاستجابة (الإجمالي)10.67sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
25.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)2.37sزمن الاستجابة (الحد الأقصى)3.39sزمن الاستجابة (الإجمالي)4.75sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
7.8تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
22.2%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.41sزمن الاستجابة (الحد الأقصى)2.39sزمن الاستجابة (الإجمالي)4.23sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
7.8تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
11.1%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)5.12sزمن الاستجابة (الحد الأقصى)8.84sزمن الاستجابة (الإجمالي)15.36sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.54sزمن الاستجابة (الحد الأقصى)3.54sزمن الاستجابة (الإجمالي)3.54sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.98sزمن الاستجابة (الحد الأقصى)4.98sزمن الاستجابة (الإجمالي)4.98sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.32sزمن الاستجابة (الحد الأقصى)1.42sزمن الاستجابة (الإجمالي)2.64sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.78sزمن الاستجابة (الحد الأقصى)5.78sزمن الاستجابة (الإجمالي)5.78sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)877msزمن الاستجابة (الحد الأقصى)904msزمن الاستجابة (الإجمالي)2.63sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)2.24sزمن الاستجابة (الحد الأقصى)2.24sزمن الاستجابة (الإجمالي)2.24sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.58sزمن الاستجابة (الحد الأقصى)2.58sزمن الاستجابة (الإجمالي)2.58sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.27sزمن الاستجابة (الحد الأقصى)3.27sزمن الاستجابة (الإجمالي)3.27sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
50.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.03sزمن الاستجابة (الحد الأقصى)1.10sزمن الاستجابة (الإجمالي)2.06sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.48sزمن الاستجابة (الحد الأقصى)1.48sزمن الاستجابة (الإجمالي)1.48sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
4.7تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
77.8%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
2الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.30sزمن الاستجابة (الحد الأقصى)1.61sزمن الاستجابة (الإجمالي)3.90sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.91sزمن الاستجابة (الحد الأقصى)2.08sزمن الاستجابة (الإجمالي)3.82sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.30sزمن الاستجابة (الحد الأقصى)3.30sزمن الاستجابة (الإجمالي)3.30sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.07sزمن الاستجابة (الحد الأقصى)11.07sزمن الاستجابة (الإجمالي)11.07sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.89sزمن الاستجابة (الحد الأقصى)1.89sزمن الاستجابة (الإجمالي)1.89sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.62sزمن الاستجابة (الحد الأقصى)3.62sزمن الاستجابة (الإجمالي)3.62sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…