9.8درجة النجاح من المحاولة الأولى: 10.0 تعني عدم وجود إخفاقات قابلة لإعادة المحاولة من واجهة API الهدف أو حدود المعدل قبل النداءات الناجحة؛ الإخفاقات المسجلة تخفض الدرجة.…
غير متاحدرجة النجاح من المحاولة الأولى: 10.0 تعني عدم وجود إخفاقات قابلة لإعادة المحاولة من واجهة API الهدف أو حدود المعدل قبل النداءات الناجحة؛ الإخفاقات المسجلة تخفض الدرجة.…
الاتساق
8.1تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
اختبارات صحيحة
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 3إجابة خاطئة: 3لا توجد إجابة: 1زمن الاستجابة (المتوسط)61.96sزمن الاستجابة (الحد الأقصى)149.23sزمن الاستجابة (الإجمالي)1115.31sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)15.25sزمن الاستجابة (الحد الأقصى)43.55sزمن الاستجابة (الإجمالي)182.96sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
معدل النجاح لكل محاولة
74.1%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
75.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
اختبارات غير مستقرة
4الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
إجمالي مرات التشغيل
54إجمالي مرات التشغيل…
57إجمالي مرات التشغيل…
التكلفة لكل نتيجة
18.579يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
0.000يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
إجمالي التكلفة
$2.044إجمالي التكلفة…
$0.000إجمالي التكلفة…
??? ???????
$0.250 / 1M??? ???????…
$0.000 / 1M??? ???????…
??? ???????
$1.500 / 1M??? ???????…
$0.000 / 1M??? ???????…
رموز الإخراج
1,984رموز الإخراج…
1,153رموز الإخراج…
رموز الاستدلال
1,355,583رموز الاستدلال…
62,197رموز الاستدلال…
زمن الاستجابة (المتوسط)
61.96sزمن الاستجابة (المتوسط)…
15.25sزمن الاستجابة (المتوسط)…
زمن الاستجابة (الحد الأقصى)
149.23sزمن الاستجابة (الحد الأقصى)…
43.55sزمن الاستجابة (الحد الأقصى)…
زمن الاستجابة (الإجمالي)
1115.31sزمن الاستجابة (الإجمالي)…
182.96sزمن الاستجابة (الإجمالي)…
أفضل النماذج حسب الدرجة
الدرجة مقابل التكلفة الإجمالية
زمن الاستجابة (المتوسط)
النتيجة vs زمن الاستجابة (المتوسط)
إجمالي رموز الإخراج
النتيجة vs إجمالي رموز الإخراج
تفصيل الفئات
حيل مضادة للذكاء الاصطناعي
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Gemini 3.1 Flash Liteنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
9.4متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)37.16sزمن الاستجابة (الحد الأقصى)140.53sزمن الاستجابة (الإجمالي)148.65sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
37.16sزمن الاستجابة (المتوسط)…
100رموز الإخراج…
130,598رموز الاستدلال…
Qwen3.6 Plus Previewنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.69sزمن الاستجابة (الحد الأقصى)19.37sزمن الاستجابة (الإجمالي)35.08sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
11.69sزمن الاستجابة (المتوسط)…
61رموز الإخراج…
5,812رموز الاستدلال…
البرمجة
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Gemini 3.1 Flash Liteنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)137.63sزمن الاستجابة (الحد الأقصى)137.63sزمن الاستجابة (الإجمالي)137.63sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
137.63sزمن الاستجابة (المتوسط)…
666رموز الإخراج…
188,733رموز الاستدلال…
Qwen3.6 Plus Previewنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
0.0متوسط الدرجة عبر جميع اختبارات القياس.…
0.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0msيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
0msزمن الاستجابة (المتوسط)…
0رموز الإخراج…
0رموز الاستدلال…
مجمّع
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Gemini 3.1 Flash Liteنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)149.23sزمن الاستجابة (الحد الأقصى)149.23sزمن الاستجابة (الإجمالي)149.23sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
149.23sزمن الاستجابة (المتوسط)…
327رموز الإخراج…
198,243رموز الاستدلال…
Qwen3.6 Plus Previewنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)34.95sزمن الاستجابة (الحد الأقصى)34.95sزمن الاستجابة (الإجمالي)34.95sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
34.95sزمن الاستجابة (المتوسط)…
452رموز الإخراج…
13,073رموز الاستدلال…
تحليل البيانات واستخراجها
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Gemini 3.1 Flash Liteنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.49sزمن الاستجابة (الحد الأقصى)4.96sزمن الاستجابة (الإجمالي)8.98sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
4.49sزمن الاستجابة (المتوسط)…
279رموز الإخراج…
7,351رموز الاستدلال…
Qwen3.6 Plus Previewنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)14.95sزمن الاستجابة (الحد الأقصى)15.40sزمن الاستجابة (الإجمالي)29.90sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
14.95sزمن الاستجابة (المتوسط)…
270رموز الإخراج…
10,706رموز الاستدلال…
خاص بالمجال
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Gemini 3.1 Flash Liteنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
3.6متوسط الدرجة عبر جميع اختبارات القياس.…
7.2تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
22.2%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)139.90sزمن الاستجابة (الحد الأقصى)141.40sزمن الاستجابة (الإجمالي)419.69sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
139.90sزمن الاستجابة (المتوسط)…
18رموز الإخراج…
566,210رموز الاستدلال…
Qwen3.6 Plus Previewنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
3.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)22.08sزمن الاستجابة (الحد الأقصى)43.55sزمن الاستجابة (الإجمالي)66.23sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
22.08sزمن الاستجابة (المتوسط)…
49رموز الإخراج…
26,895رموز الاستدلال…
الذكاء العام
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Gemini 3.1 Flash Liteنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
5.0متوسط الدرجة عبر جميع اختبارات القياس.…
2.1تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)45.69sزمن الاستجابة (الحد الأقصى)45.69sزمن الاستجابة (الإجمالي)45.69sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
45.69sزمن الاستجابة (المتوسط)…
95رموز الإخراج…
64,644رموز الاستدلال…
Qwen3.6 Plus Previewنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
0.0متوسط الدرجة عبر جميع اختبارات القياس.…
0.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0msيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
0msزمن الاستجابة (المتوسط)…
0رموز الإخراج…
0رموز الاستدلال…
اتباع التعليمات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Gemini 3.1 Flash Liteنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
7.3متوسط الدرجة عبر جميع اختبارات القياس.…
5.8تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
83.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)23.26sزمن الاستجابة (الحد الأقصى)43.87sزمن الاستجابة (الإجمالي)46.51sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
23.26sزمن الاستجابة (المتوسط)…
52رموز الإخراج…
3,549رموز الاستدلال…
Qwen3.6 Plus Previewنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.40sزمن الاستجابة (الحد الأقصى)3.40sزمن الاستجابة (الإجمالي)3.40sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
3.40sزمن الاستجابة (المتوسط)…
27رموز الإخراج…
1,383رموز الاستدلال…
حل الألغاز
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Gemini 3.1 Flash Liteنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
5.7متوسط الدرجة عبر جميع اختبارات القياس.…
6.8تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
44.4%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)50.83sزمن الاستجابة (الحد الأقصى)144.85sزمن الاستجابة (الإجمالي)152.49sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
50.83sزمن الاستجابة (المتوسط)…
213رموز الإخراج…
193,654رموز الاستدلال…
Qwen3.6 Plus Previewنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.52sزمن الاستجابة (الحد الأقصى)7.52sزمن الاستجابة (الإجمالي)7.52sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
7.52sزمن الاستجابة (المتوسط)…
27رموز الإخراج…
2,998رموز الاستدلال…
استدعاء الأدوات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Gemini 3.1 Flash Liteنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.44sزمن الاستجابة (الحد الأقصى)6.44sزمن الاستجابة (الإجمالي)6.44sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
6.44sزمن الاستجابة (المتوسط)…
234رموز الإخراج…
2,601رموز الاستدلال…
Qwen3.6 Plus Previewنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.87sزمن الاستجابة (الحد الأقصى)5.87sزمن الاستجابة (الإجمالي)5.87sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
5.87sزمن الاستجابة (المتوسط)…
267رموز الإخراج…
1,330رموز الاستدلال…
معلومات عامة
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Gemini 3.1 Flash Liteنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
-
-
-
-
-
-
-
-
Qwen3.6 Plus Previewنموذج مؤرشف: لن يتم تحديث هذا النموذج أو اختباره على اختبارات جديدة بعد الآن.
0.0متوسط الدرجة عبر جميع اختبارات القياس.…
0.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0msيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…