9.6تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
9.1تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
التكلفة لكل نتيجة
0.172يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
0.000يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
إجمالي التكلفة
$0.016إجمالي التكلفة…
$0.000إجمالي التكلفة…
اختبارات صحيحة
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 7زمن الاستجابة (المتوسط)2.65sزمن الاستجابة (الحد الأقصى)6.65sزمن الاستجابة (الإجمالي)26.52sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 3إجابة خاطئة: 3زمن الاستجابة (المتوسط)29.10sزمن الاستجابة (الحد الأقصى)170.45sزمن الاستجابة (الإجمالي)290.96sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
معدل النجاح لكل محاولة
58.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
68.8%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
اختبارات غير مستقرة
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
2الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
إجمالي مرات التشغيل
48إجمالي مرات التشغيل…
48إجمالي مرات التشغيل…
رموز الإخراج
2,015رموز الإخراج…
71,452رموز الإخراج…
رموز الاستدلال
0رموز الاستدلال…
155,147رموز الاستدلال…
زمن الاستجابة (المتوسط)
2.65sزمن الاستجابة (المتوسط)…
29.10sزمن الاستجابة (المتوسط)…
زمن الاستجابة (الحد الأقصى)
6.65sزمن الاستجابة (الحد الأقصى)…
170.45sزمن الاستجابة (الحد الأقصى)…
زمن الاستجابة (الإجمالي)
26.52sزمن الاستجابة (الإجمالي)…
290.96sزمن الاستجابة (الإجمالي)…
أفضل النماذج حسب الدرجة
الدرجة مقابل التكلفة الإجمالية
زمن الاستجابة (المتوسط)
متوسط الدرجة vs زمن الاستجابة (المتوسط)
تفصيل الفئات
حيل مضادة للذكاء الاصطناعي
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Qwen: Qwen3.5 Plus 2026-02-15
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)2.74sزمن الاستجابة (الحد الأقصى)2.74sزمن الاستجابة (الإجمالي)2.74sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
2.74sزمن الاستجابة (المتوسط)…
514رموز الإخراج…
0رموز الاستدلال…
StepFun: Step 3.5 Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)18.54sزمن الاستجابة (الحد الأقصى)32.30sزمن الاستجابة (الإجمالي)37.07sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
18.54sزمن الاستجابة (المتوسط)…
13,924رموز الإخراج…
17,208رموز الاستدلال…
مجمّع
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Qwen: Qwen3.5 Plus 2026-02-15
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)6.65sزمن الاستجابة (الحد الأقصى)6.65sزمن الاستجابة (الإجمالي)6.65sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
6.65sزمن الاستجابة (المتوسط)…
314رموز الإخراج…
0رموز الاستدلال…
StepFun: Step 3.5 Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)29.57sزمن الاستجابة (الحد الأقصى)29.57sزمن الاستجابة (الإجمالي)29.57sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
29.57sزمن الاستجابة (المتوسط)…
1,176رموز الإخراج…
12,984رموز الاستدلال…
تحليل البيانات واستخراجها
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Qwen: Qwen3.5 Plus 2026-02-15
9.9متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.89sزمن الاستجابة (الحد الأقصى)1.89sزمن الاستجابة (الإجمالي)1.89sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
1.89sزمن الاستجابة (المتوسط)…
243رموز الإخراج…
0رموز الاستدلال…
StepFun: Step 3.5 Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.01sزمن الاستجابة (الحد الأقصى)15.01sزمن الاستجابة (الإجمالي)15.01sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
15.01sزمن الاستجابة (المتوسط)…
600رموز الإخراج…
13,886رموز الاستدلال…
خاص بالمجال
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Qwen: Qwen3.5 Plus 2026-02-15
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)1.17sزمن الاستجابة (الحد الأقصى)1.44sزمن الاستجابة (الإجمالي)2.33sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
1.17sزمن الاستجابة (المتوسط)…
17رموز الإخراج…
0رموز الاستدلال…
StepFun: Step 3.5 Flash
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
7.2تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
44.4%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)170.45sزمن الاستجابة (الحد الأقصى)170.45sزمن الاستجابة (الإجمالي)170.45sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
170.45sزمن الاستجابة (المتوسط)…
45,350رموز الإخراج…
90,436رموز الاستدلال…
الذكاء العام
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Qwen: Qwen3.5 Plus 2026-02-15
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
3.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.26sزمن الاستجابة (الحد الأقصى)2.26sزمن الاستجابة (الإجمالي)2.26sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
2.26sزمن الاستجابة (المتوسط)…
117رموز الإخراج…
0رموز الاستدلال…
StepFun: Step 3.5 Flash
6.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)6.54sزمن الاستجابة (الحد الأقصى)6.54sزمن الاستجابة (الإجمالي)6.54sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
6.54sزمن الاستجابة (المتوسط)…
2,214رموز الإخراج…
2,584رموز الاستدلال…
اتباع التعليمات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Qwen: Qwen3.5 Plus 2026-02-15
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.67sزمن الاستجابة (الحد الأقصى)1.67sزمن الاستجابة (الإجمالي)1.67sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
1.67sزمن الاستجابة (المتوسط)…
72رموز الإخراج…
0رموز الاستدلال…
StepFun: Step 3.5 Flash
9.0متوسط الدرجة عبر جميع اختبارات القياس.…
6.8تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
83.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.98sزمن الاستجابة (الحد الأقصى)4.98sزمن الاستجابة (الإجمالي)4.98sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
4.98sزمن الاستجابة (المتوسط)…
2,284رموز الإخراج…
3,412رموز الاستدلال…
Puzzle Solving
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Qwen: Qwen3.5 Plus 2026-02-15
7.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.82sزمن الاستجابة (الحد الأقصى)3.52sزمن الاستجابة (الإجمالي)5.65sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
2.82sزمن الاستجابة (المتوسط)…
516رموز الإخراج…
0رموز الاستدلال…
StepFun: Step 3.5 Flash
4.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.72sزمن الاستجابة (الحد الأقصى)10.60sزمن الاستجابة (الإجمالي)15.44sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
7.72sزمن الاستجابة (المتوسط)…
5,629رموز الإخراج…
10,835رموز الاستدلال…
استدعاء الأدوات
النتيجة
الاتساق
معدل النجاح لكل محاولة
اختبارات غير مستقرة
اختبارات صحيحة
زمن الاستجابة (المتوسط)
رموز الإخراج
رموز الاستدلال
Qwen: Qwen3.5 Plus 2026-02-15
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.33sزمن الاستجابة (الحد الأقصى)3.33sزمن الاستجابة (الإجمالي)3.33sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
3.33sزمن الاستجابة (المتوسط)…
222رموز الإخراج…
0رموز الاستدلال…
StepFun: Step 3.5 Flash
10.0متوسط الدرجة عبر جميع اختبارات القياس.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.91sزمن الاستجابة (الحد الأقصى)11.91sزمن الاستجابة (الإجمالي)11.91sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…