يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.37sزمن الاستجابة (الحد الأقصى)3.39sزمن الاستجابة (الإجمالي)20.53sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 3إجابة خاطئة: 2خطأ API: 1لا توجد إجابة: 1زمن الاستجابة (المتوسط)44.84sزمن الاستجابة (الحد الأقصى)106.00sزمن الاستجابة (الإجمالي)672.55sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
الاتساق
9.6تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
6.7تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
التكلفة لكل نتيجة
0.142يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
4.189يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
إجمالي التكلفة
$0.015إجمالي التكلفة…
$0.336إجمالي التكلفة…
معدل النجاح لكل محاولة
71.1%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
80.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
اختبارات غير مستقرة
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
6الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
رموز الإخراج
4,646رموز الإخراج…
5,475رموز الإخراج…
رموز الاستدلال
0رموز الاستدلال…
165,513رموز الاستدلال…
زمن الاستجابة (المتوسط)
1.37sزمن الاستجابة (المتوسط)…
44.84sزمن الاستجابة (المتوسط)…
زمن الاستجابة (الحد الأقصى)
3.39sزمن الاستجابة (الحد الأقصى)…
106.00sزمن الاستجابة (الحد الأقصى)…
زمن الاستجابة (الإجمالي)
20.53sزمن الاستجابة (الإجمالي)…
672.55sزمن الاستجابة (الإجمالي)…
أفضل النماذج حسب الدرجة
الدرجة مقابل التكلفة الإجمالية
زمن الاستجابة (المتوسط)
متوسط الدرجة vs زمن الاستجابة (المتوسط)
تفصيل الفئات
حيل مضادة للذكاء الاصطناعي
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
6.0متوسط الدرجة عبر جميع اختبارات القياس.…
7.8تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
55.6%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.16sزمن الاستجابة (الحد الأقصى)1.47sزمن الاستجابة (الإجمالي)3.49sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
1.16sزمن الاستجابة (المتوسط)…
1,086رموز الإخراج…
0رموز الاستدلال…
Qwen: Qwen3.5-35B-A3B
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)21.75sزمن الاستجابة (الحد الأقصى)34.96sزمن الاستجابة (الإجمالي)65.26sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
21.75sزمن الاستجابة (المتوسط)…
429رموز الإخراج…
36,235رموز الاستدلال…
مجمّع
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.20sزمن الاستجابة (الحد الأقصى)3.20sزمن الاستجابة (الإجمالي)3.20sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
3.20sزمن الاستجابة (المتوسط)…
339رموز الإخراج…
0رموز الاستدلال…
Qwen: Qwen3.5-35B-A3B
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
1.6تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)75.34sزمن الاستجابة (الحد الأقصى)75.34sزمن الاستجابة (الإجمالي)75.34sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
75.34sزمن الاستجابة (المتوسط)…
775رموز الإخراج…
12,485رموز الاستدلال…
تحليل البيانات واستخراجها
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
9.9متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.22sزمن الاستجابة (الحد الأقصى)1.33sزمن الاستجابة (الإجمالي)2.44sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
1.22sزمن الاستجابة (المتوسط)…
399رموز الإخراج…
0رموز الاستدلال…
Qwen: Qwen3.5-35B-A3B
5.5متوسط الدرجة عبر جميع اختبارات القياس.…
5.9تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
83.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)59.33sزمن الاستجابة (الحد الأقصى)97.12sزمن الاستجابة (الإجمالي)118.65sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
59.33sزمن الاستجابة (المتوسط)…
235رموز الإخراج…
19,493رموز الاستدلال…
خاص بالمجال
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)942msزمن الاستجابة (الحد الأقصى)1.12sزمن الاستجابة (الإجمالي)2.83sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
942msزمن الاستجابة (المتوسط)…
568رموز الإخراج…
0رموز الاستدلال…
Qwen: Qwen3.5-35B-A3B
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
4.4تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
44.5%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
2الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)88.34sزمن الاستجابة (الحد الأقصى)106.00sزمن الاستجابة (الإجمالي)265.01sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
88.34sزمن الاستجابة (المتوسط)…
41رموز الإخراج…
46,368رموز الاستدلال…
اتباع التعليمات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.13sزمن الاستجابة (الحد الأقصى)1.14sزمن الاستجابة (الإجمالي)2.27sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
1.13sزمن الاستجابة (المتوسط)…
574رموز الإخراج…
0رموز الاستدلال…
Qwen: Qwen3.5-35B-A3B
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)24.45sزمن الاستجابة (الحد الأقصى)43.36sزمن الاستجابة (الإجمالي)48.89sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
24.45sزمن الاستجابة (المتوسط)…
97رموز الإخراج…
17,361رموز الاستدلال…
Puzzle Solving
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)972msزمن الاستجابة (الحد الأقصى)1.13sزمن الاستجابة (الإجمالي)2.92sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
972msزمن الاستجابة (المتوسط)…
898رموز الإخراج…
0رموز الاستدلال…
Qwen: Qwen3.5-35B-A3B
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
4.4تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
77.8%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
2الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)31.58sزمن الاستجابة (الحد الأقصى)60.18sزمن الاستجابة (الإجمالي)94.75sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
31.58sزمن الاستجابة (المتوسط)…
3,589رموز الإخراج…
32,206رموز الاستدلال…
استدعاء الأدوات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.39sزمن الاستجابة (الحد الأقصى)3.39sزمن الاستجابة (الإجمالي)3.39sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
3.39sزمن الاستجابة (المتوسط)…
782رموز الإخراج…
0رموز الاستدلال…
Qwen: Qwen3.5-35B-A3B
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.65sزمن الاستجابة (الحد الأقصى)4.65sزمن الاستجابة (الإجمالي)4.65sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…