10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
9.99تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
9.44تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
التكلفة لكل نتيجة
0.162يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
0.403يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
17.455يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
0.624يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
إجمالي التكلفة
$0.017إجمالي التكلفة…
$0.037إجمالي التكلفة…
$1.920إجمالي التكلفة…
$0.069إجمالي التكلفة…
اختبارات صحيحة
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.89sزمن الاستجابة (الحد الأقصى)9.54sزمن الاستجابة (الإجمالي)43.35sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)3.74sزمن الاستجابة (الحد الأقصى)12.98sزمن الاستجابة (الإجمالي)56.15sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)69.85sزمن الاستجابة (الحد الأقصى)232.25sزمن الاستجابة (الإجمالي)1047.79sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)6.32sزمن الاستجابة (الحد الأقصى)14.72sزمن الاستجابة (الإجمالي)94.86sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
معدل النجاح لكل محاولة
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
60.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
73.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
75.6%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
اختبارات غير مستقرة
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
رموز الإخراج
1,392رموز الإخراج…
1,417رموز الإخراج…
943رموز الإخراج…
1,274رموز الإخراج…
رموز الاستدلال
6,379رموز الاستدلال…
19,435رموز الاستدلال…
1,275,768رموز الاستدلال…
18,372رموز الاستدلال…
أفضل النماذج حسب الدرجة
الدرجة مقابل التكلفة الإجمالية
تفصيل الفئات
حيل مضادة للذكاء الاصطناعي
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
7.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.18sزمن الاستجابة (الحد الأقصى)3.18sزمن الاستجابة (الإجمالي)6.53sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
456رموز الإخراج…
1,224رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
9.00متوسط الدرجة عبر جميع اختبارات القياس.…
9.99تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.53sزمن الاستجابة (الحد الأقصى)3.89sزمن الاستجابة (الإجمالي)7.58sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
564رموز الإخراج…
3,780رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
10.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)43.87sزمن الاستجابة (الحد الأقصى)121.88sزمن الاستجابة (الإجمالي)131.62sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
144رموز الإخراج…
193,077رموز الاستدلال…
Google: Gemini 3 Flash Preview
10.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.50sزمن الاستجابة (الحد الأقصى)4.31sزمن الاستجابة (الإجمالي)10.49sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
275رموز الإخراج…
2,476رموز الاستدلال…
مجمّع
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
1.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.96sزمن الاستجابة (الحد الأقصى)2.96sزمن الاستجابة (الإجمالي)2.96sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
75رموز الإخراج…
253رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
10.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)12.98sزمن الاستجابة (الحد الأقصى)12.98sزمن الاستجابة (الإجمالي)12.98sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
109رموز الإخراج…
2,449رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
10.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)232.25sزمن الاستجابة (الحد الأقصى)232.25sزمن الاستجابة (الإجمالي)232.25sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
112رموز الإخراج…
126,813رموز الاستدلال…
Google: Gemini 3 Flash Preview
1.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.96sزمن الاستجابة (الحد الأقصى)2.96sزمن الاستجابة (الإجمالي)2.96sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
104رموز الإخراج…
0رموز الاستدلال…
تحليل البيانات واستخراجها
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
9.88متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.00sزمن الاستجابة (الحد الأقصى)3.74sزمن الاستجابة (الإجمالي)5.99sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
291رموز الإخراج…
696رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
9.88متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.29sزمن الاستجابة (الحد الأقصى)2.31sزمن الاستجابة (الإجمالي)4.59sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
279رموز الإخراج…
2,952رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
9.88متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.16sزمن الاستجابة (الحد الأقصى)8.54sزمن الاستجابة (الإجمالي)14.31sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
279رموز الإخراج…
6,186رموز الاستدلال…
Google: Gemini 3 Flash Preview
10.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.46sزمن الاستجابة (الحد الأقصى)14.72sزمن الاستجابة (الإجمالي)18.92sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
305رموز الإخراج…
3,004رموز الاستدلال…
خاص بالمجال
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
4.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)2.36sزمن الاستجابة (الحد الأقصى)3.51sزمن الاستجابة (الإجمالي)7.07sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
18رموز الإخراج…
1,212رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
1.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)4.21sزمن الاستجابة (الحد الأقصى)5.86sزمن الاستجابة (الإجمالي)12.62sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
18رموز الإخراج…
5,325رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
4.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)127.58sزمن الاستجابة (الحد الأقصى)133.93sزمن الاستجابة (الإجمالي)382.74sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
18رموز الإخراج…
566,202رموز الاستدلال…
Google: Gemini 3 Flash Preview
4.00متوسط الدرجة عبر جميع اختبارات القياس.…
7.21تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
44.4%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)8.05sزمن الاستجابة (الحد الأقصى)14.40sزمن الاستجابة (الإجمالي)24.15sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
12رموز الإخراج…
6,410رموز الاستدلال…
اتباع التعليمات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
8.50متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
50.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.49sزمن الاستجابة (الحد الأقصى)1.66sزمن الاستجابة (الإجمالي)2.99sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
72رموز الإخراج…
753رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
8.00متوسط الدرجة عبر جميع اختبارات القياس.…
9.99تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
50.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.91sزمن الاستجابة (الحد الأقصى)1.93sزمن الاستجابة (الإجمالي)3.82sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
72رموز الإخراج…
2,121رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
8.00متوسط الدرجة عبر جميع اختبارات القياس.…
9.96تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
50.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)70.07sزمن الاستجابة (الحد الأقصى)136.53sزمن الاستجابة (الإجمالي)140.14sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
69رموز الإخراج…
190,053رموز الاستدلال…
Google: Gemini 3 Flash Preview
7.50متوسط الدرجة عبر جميع اختبارات القياس.…
9.99تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
50.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)7.02sزمن الاستجابة (الحد الأقصى)7.35sزمن الاستجابة (الإجمالي)14.03sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
71رموز الإخراج…
2,752رموز الاستدلال…
Puzzle Solving
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.76sزمن الاستجابة (الحد الأقصى)5.08sزمن الاستجابة (الإجمالي)8.27sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
243رموز الإخراج…
1,248رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
7.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.58sزمن الاستجابة (الحد الأقصى)4.41sزمن الاستجابة (الإجمالي)10.75sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
141رموز الإخراج…
1,896رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
7.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)46.33sزمن الاستجابة (الحد الأقصى)134.22sزمن الاستجابة (الإجمالي)139.00sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
87رموز الإخراج…
190,953رموز الاستدلال…
Google: Gemini 3 Flash Preview
10.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.44sزمن الاستجابة (الحد الأقصى)10.27sزمن الاستجابة (الإجمالي)19.32sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
273رموز الإخراج…
3,315رموز الاستدلال…
استدعاء الأدوات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.54sزمن الاستجابة (الحد الأقصى)9.54sزمن الاستجابة (الإجمالي)9.54sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
237رموز الإخراج…
993رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
10.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.80sزمن الاستجابة (الحد الأقصى)3.80sزمن الاستجابة (الإجمالي)3.80sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
234رموز الإخراج…
912رموز الاستدلال…
Google: Gemini 3.1 Flash Lite Preview
10.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.73sزمن الاستجابة (الحد الأقصى)7.73sزمن الاستجابة (الإجمالي)7.73sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
234رموز الإخراج…
2,484رموز الاستدلال…
Google: Gemini 3 Flash Preview
10.00متوسط الدرجة عبر جميع اختبارات القياس.…
10.00تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.99sزمن الاستجابة (الحد الأقصى)4.99sزمن الاستجابة (الإجمالي)4.99sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…