9.6تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
7.5تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
التكلفة لكل نتيجة
19.243يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
0.720يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
إجمالي التكلفة
$2.310إجمالي التكلفة…
$0.072إجمالي التكلفة…
اختبارات صحيحة
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)68.83sزمن الاستجابة (الحد الأقصى)280.52sزمن الاستجابة (الإجمالي)1101.32sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 3خطأ API: 1لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)70.81sزمن الاستجابة (الحد الأقصى)234.29sزمن الاستجابة (الإجمالي)1132.90sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
معدل النجاح لكل محاولة
77.1%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
81.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
اختبارات غير مستقرة
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
5الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
common.totalRuns
48 (16 x 3)common.totalRuns…
48 (16 x 3)common.totalRuns…
رموز الإخراج
1,283رموز الإخراج…
1,807رموز الإخراج…
رموز الاستدلال
1,533,310رموز الاستدلال…
169,952رموز الاستدلال…
زمن الاستجابة (المتوسط)
68.83sزمن الاستجابة (المتوسط)…
70.81sزمن الاستجابة (المتوسط)…
زمن الاستجابة (الحد الأقصى)
280.52sزمن الاستجابة (الحد الأقصى)…
234.29sزمن الاستجابة (الحد الأقصى)…
زمن الاستجابة (الإجمالي)
1101.32sزمن الاستجابة (الإجمالي)…
1132.90sزمن الاستجابة (الإجمالي)…
أفضل النماذج حسب الدرجة
الدرجة مقابل التكلفة الإجمالية
زمن الاستجابة (المتوسط)
متوسط الدرجة vs زمن الاستجابة (المتوسط)
تفصيل الفئات
حيل مضادة للذكاء الاصطناعي
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)43.87sزمن الاستجابة (الحد الأقصى)121.88sزمن الاستجابة (الإجمالي)131.62sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
43.87sزمن الاستجابة (المتوسط)…
144رموز الإخراج…
193,077رموز الاستدلال…
Qwen: Qwen3.5-Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)71.35sزمن الاستجابة (الحد الأقصى)168.31sزمن الاستجابة (الإجمالي)214.06sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
71.35sزمن الاستجابة (المتوسط)…
363رموز الإخراج…
23,645رموز الاستدلال…
مجمّع
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)280.52sزمن الاستجابة (الحد الأقصى)280.52sزمن الاستجابة (الإجمالي)280.52sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
280.52sزمن الاستجابة (المتوسط)…
335رموز الإخراج…
380,440رموز الاستدلال…
Qwen: Qwen3.5-Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)17.78sزمن الاستجابة (الحد الأقصى)17.78sزمن الاستجابة (الإجمالي)17.78sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
17.78sزمن الاستجابة (المتوسط)…
483رموز الإخراج…
8,270رموز الاستدلال…
تحليل البيانات واستخراجها
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
9.9متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.16sزمن الاستجابة (الحد الأقصى)8.54sزمن الاستجابة (الإجمالي)14.31sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
7.16sزمن الاستجابة (المتوسط)…
279رموز الإخراج…
6,186رموز الاستدلال…
Qwen: Qwen3.5-Flash
5.5متوسط الدرجة عبر جميع اختبارات القياس.…
5.9تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
83.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)56.99sزمن الاستجابة (الحد الأقصى)80.14sزمن الاستجابة (الإجمالي)113.98sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
56.99sزمن الاستجابة (المتوسط)…
235رموز الإخراج…
16,237رموز الاستدلال…
خاص بالمجال
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)127.58sزمن الاستجابة (الحد الأقصى)133.93sزمن الاستجابة (الإجمالي)382.74sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
127.58sزمن الاستجابة (المتوسط)…
18رموز الإخراج…
566,202رموز الاستدلال…
Qwen: Qwen3.5-Flash
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
7.2تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
44.4%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)146.50sزمن الاستجابة (الحد الأقصى)234.29sزمن الاستجابة (الإجمالي)439.49sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
146.50sزمن الاستجابة (المتوسط)…
58رموز الإخراج…
43,615رموز الاستدلال…
الذكاء العام
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.25sزمن الاستجابة (الحد الأقصى)5.25sزمن الاستجابة (الإجمالي)5.25sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
5.25sزمن الاستجابة (المتوسط)…
117رموز الإخراج…
3,915رموز الاستدلال…
Qwen: Qwen3.5-Flash
5.0متوسط الدرجة عبر جميع اختبارات القياس.…
3.1تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)40.05sزمن الاستجابة (الحد الأقصى)40.05sزمن الاستجابة (الإجمالي)40.05sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
40.05sزمن الاستجابة (المتوسط)…
99رموز الإخراج…
38,486رموز الاستدلال…
اتباع التعليمات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
9.0متوسط الدرجة عبر جميع اختبارات القياس.…
6.9تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)70.07sزمن الاستجابة (الحد الأقصى)136.53sزمن الاستجابة (الإجمالي)140.14sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
70.07sزمن الاستجابة (المتوسط)…
69رموز الإخراج…
190,053رموز الاستدلال…
Qwen: Qwen3.5-Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)63.49sزمن الاستجابة (الحد الأقصى)111.61sزمن الاستجابة (الإجمالي)126.98sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
63.49sزمن الاستجابة (المتوسط)…
98رموز الإخراج…
14,139رموز الاستدلال…
Puzzle Solving
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
7.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)46.33sزمن الاستجابة (الحد الأقصى)134.22sزمن الاستجابة (الإجمالي)139.00sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
46.33sزمن الاستجابة (المتوسط)…
87رموز الإخراج…
190,953رموز الاستدلال…
Qwen: Qwen3.5-Flash
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
4.4تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
77.8%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
2الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 2زمن الاستجابة (المتوسط)56.74sزمن الاستجابة (الحد الأقصى)115.01sزمن الاستجابة (الإجمالي)170.23sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
56.74sزمن الاستجابة (المتوسط)…
162رموز الإخراج…
24,276رموز الاستدلال…
استدعاء الأدوات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.73sزمن الاستجابة (الحد الأقصى)7.73sزمن الاستجابة (الإجمالي)7.73sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
7.73sزمن الاستجابة (المتوسط)…
234رموز الإخراج…
2,484رموز الاستدلال…
Qwen: Qwen3.5-Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)10.33sزمن الاستجابة (الحد الأقصى)10.33sزمن الاستجابة (الإجمالي)10.33sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…