10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
9.1تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
التكلفة لكل نتيجة
0.443يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
0.000يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
إجمالي التكلفة
$0.049إجمالي التكلفة…
$0.000إجمالي التكلفة…
اختبارات صحيحة
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.83sزمن الاستجابة (الحد الأقصى)14.93sزمن الاستجابة (الإجمالي)61.25sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 3إجابة خاطئة: 3زمن الاستجابة (المتوسط)29.10sزمن الاستجابة (الحد الأقصى)170.45sزمن الاستجابة (الإجمالي)290.96sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
معدل النجاح لكل محاولة
68.8%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
68.8%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
اختبارات غير مستقرة
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
2الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
إجمالي مرات التشغيل
48 (16 x 3)إجمالي مرات التشغيل…
48 (16 x 3)إجمالي مرات التشغيل…
رموز الإخراج
1,731رموز الإخراج…
71,452رموز الإخراج…
رموز الاستدلال
25,821رموز الاستدلال…
155,147رموز الاستدلال…
زمن الاستجابة (المتوسط)
3.83sزمن الاستجابة (المتوسط)…
29.10sزمن الاستجابة (المتوسط)…
زمن الاستجابة (الحد الأقصى)
14.93sزمن الاستجابة (الحد الأقصى)…
170.45sزمن الاستجابة (الحد الأقصى)…
زمن الاستجابة (الإجمالي)
61.25sزمن الاستجابة (الإجمالي)…
290.96sزمن الاستجابة (الإجمالي)…
أفضل النماذج حسب الدرجة
الدرجة مقابل التكلفة الإجمالية
زمن الاستجابة (المتوسط)
متوسط الدرجة vs زمن الاستجابة (المتوسط)
تفصيل الفئات
حيل مضادة للذكاء الاصطناعي
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
9.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.53sزمن الاستجابة (الحد الأقصى)3.89sزمن الاستجابة (الإجمالي)7.58sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
2.53sزمن الاستجابة (المتوسط)…
564رموز الإخراج…
3,780رموز الاستدلال…
StepFun: Step 3.5 Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)18.54sزمن الاستجابة (الحد الأقصى)32.30sزمن الاستجابة (الإجمالي)37.07sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
18.54sزمن الاستجابة (المتوسط)…
13,924رموز الإخراج…
17,208رموز الاستدلال…
مجمّع
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)14.93sزمن الاستجابة (الحد الأقصى)14.93sزمن الاستجابة (الإجمالي)14.93sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
14.93sزمن الاستجابة (المتوسط)…
327رموز الإخراج…
7,347رموز الاستدلال…
StepFun: Step 3.5 Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)29.57sزمن الاستجابة (الحد الأقصى)29.57sزمن الاستجابة (الإجمالي)29.57sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
29.57sزمن الاستجابة (المتوسط)…
1,176رموز الإخراج…
12,984رموز الاستدلال…
تحليل البيانات واستخراجها
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
9.9متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.29sزمن الاستجابة (الحد الأقصى)2.31sزمن الاستجابة (الإجمالي)4.59sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
2.29sزمن الاستجابة (المتوسط)…
279رموز الإخراج…
2,952رموز الاستدلال…
StepFun: Step 3.5 Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.01sزمن الاستجابة (الحد الأقصى)15.01sزمن الاستجابة (الإجمالي)15.01sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
15.01sزمن الاستجابة (المتوسط)…
600رموز الإخراج…
13,886رموز الاستدلال…
خاص بالمجال
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)4.21sزمن الاستجابة (الحد الأقصى)5.86sزمن الاستجابة (الإجمالي)12.62sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
4.21sزمن الاستجابة (المتوسط)…
18رموز الإخراج…
5,325رموز الاستدلال…
StepFun: Step 3.5 Flash
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
7.2تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
44.4%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)170.45sزمن الاستجابة (الحد الأقصى)170.45sزمن الاستجابة (الإجمالي)170.45sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
170.45sزمن الاستجابة (المتوسط)…
45,350رموز الإخراج…
90,436رموز الاستدلال…
الذكاء العام
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.16sزمن الاستجابة (الحد الأقصى)3.16sزمن الاستجابة (الإجمالي)3.16sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
3.16sزمن الاستجابة (المتوسط)…
96رموز الإخراج…
1,488رموز الاستدلال…
StepFun: Step 3.5 Flash
6.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)6.54sزمن الاستجابة (الحد الأقصى)6.54sزمن الاستجابة (الإجمالي)6.54sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
6.54sزمن الاستجابة (المتوسط)…
2,214رموز الإخراج…
2,584رموز الاستدلال…
اتباع التعليمات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.91sزمن الاستجابة (الحد الأقصى)1.93sزمن الاستجابة (الإجمالي)3.82sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
1.91sزمن الاستجابة (المتوسط)…
72رموز الإخراج…
2,121رموز الاستدلال…
StepFun: Step 3.5 Flash
9.0متوسط الدرجة عبر جميع اختبارات القياس.…
6.8تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
83.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.98sزمن الاستجابة (الحد الأقصى)4.98sزمن الاستجابة (الإجمالي)4.98sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
4.98sزمن الاستجابة (المتوسط)…
2,284رموز الإخراج…
3,412رموز الاستدلال…
Puzzle Solving
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
7.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.58sزمن الاستجابة (الحد الأقصى)4.41sزمن الاستجابة (الإجمالي)10.75sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
3.58sزمن الاستجابة (المتوسط)…
141رموز الإخراج…
1,896رموز الاستدلال…
StepFun: Step 3.5 Flash
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.72sزمن الاستجابة (الحد الأقصى)10.60sزمن الاستجابة (الإجمالي)15.44sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
7.72sزمن الاستجابة (المتوسط)…
5,629رموز الإخراج…
10,835رموز الاستدلال…
استدعاء الأدوات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.80sزمن الاستجابة (الحد الأقصى)3.80sزمن الاستجابة (الإجمالي)3.80sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
3.80sزمن الاستجابة (المتوسط)…
234رموز الإخراج…
912رموز الاستدلال…
StepFun: Step 3.5 Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.91sزمن الاستجابة (الحد الأقصى)11.91sزمن الاستجابة (الإجمالي)11.91sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…