تتبّع أفضل نماذج الذكاء الاصطناعي المتقدمة (SOTA) عبر لوحة AI BENCHY — طريقة سهلة لمعرفة النماذج المتصدرة الآن في الدرجة وجودة الاستدلال والموثوقية والقيمة. الترتيب حسب: اختبارات صحيحة ↓.
تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06النماذج التي تم تقييمها: 55
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)12.36sزمن الاستجابة (الحد الأقصى)50.16sزمن الاستجابة (الإجمالي)111.21s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 0معدل النجاح لكل محاولة: 100.0%اختبارات غير مستقرة: 0…رموز الإخراج: 1,634رموز الاستدلال: 47,907زمن الاستجابة: المتوسط 12.36s · الإجمالي 111.21s · الحد الأقصى 50.16s
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.61sزمن الاستجابة (الحد الأقصى)5.61sزمن الاستجابة (الإجمالي)5.61s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)50.16sزمن الاستجابة (الحد الأقصى)50.16sزمن الاستجابة (الإجمالي)50.16s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.72sزمن الاستجابة (الحد الأقصى)4.72sزمن الاستجابة (الإجمالي)4.72s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)21.12sزمن الاستجابة (الحد الأقصى)21.12sزمن الاستجابة (الإجمالي)21.12s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.09sزمن الاستجابة (الحد الأقصى)4.09sزمن الاستجابة (الإجمالي)4.09s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.10sزمن الاستجابة (الحد الأقصى)6.10sزمن الاستجابة (الإجمالي)6.10s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.43sزمن الاستجابة (الحد الأقصى)4.68sزمن الاستجابة (الإجمالي)8.85s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)10.55sزمن الاستجابة (الحد الأقصى)10.55sزمن الاستجابة (الإجمالي)10.55s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)16.60sزمن الاستجابة (الحد الأقصى)40.61sزمن الاستجابة (الإجمالي)149.36s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 1معدل النجاح لكل محاولة: 93.8%اختبارات غير مستقرة: 0…رموز الإخراج: 1,521رموز الاستدلال: 35,656زمن الاستجابة: المتوسط 16.60s · الإجمالي 149.36s · الحد الأقصى 40.61s
إجابة خاطئة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.52sزمن الاستجابة (الحد الأقصى)9.52sزمن الاستجابة (الإجمالي)9.52s
Combined: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)40.61sزمن الاستجابة (الحد الأقصى)40.61sزمن الاستجابة (الإجمالي)40.61s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.72sزمن الاستجابة (الحد الأقصى)7.72sزمن الاستجابة (الإجمالي)7.72s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)32.73sزمن الاستجابة (الحد الأقصى)32.73sزمن الاستجابة (الإجمالي)32.73s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.77sزمن الاستجابة (الحد الأقصى)11.77sزمن الاستجابة (الإجمالي)11.77s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.56sزمن الاستجابة (الحد الأقصى)9.56sزمن الاستجابة (الإجمالي)9.56s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.15sزمن الاستجابة (الحد الأقصى)8.49sزمن الاستجابة (الإجمالي)14.30s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)23.15sزمن الاستجابة (الحد الأقصى)23.15sزمن الاستجابة (الإجمالي)23.15s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)34.45sزمن الاستجابة (الحد الأقصى)79.86sزمن الاستجابة (الإجمالي)310.09s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 3معدل النجاح لكل محاولة: 85.4%اختبارات غير مستقرة: 1…رموز الإخراج: 1,735رموز الاستدلال: 77,212زمن الاستجابة: المتوسط 34.45s · الإجمالي 310.09s · الحد الأقصى 79.86s
انتهت المهلة: 2إجابة خاطئة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)10.37sزمن الاستجابة (الحد الأقصى)10.37sزمن الاستجابة (الإجمالي)10.37s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)46.85sزمن الاستجابة (الحد الأقصى)46.85sزمن الاستجابة (الإجمالي)46.85s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)46.91sزمن الاستجابة (الحد الأقصى)46.91sزمن الاستجابة (الإجمالي)46.91s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)17.50sزمن الاستجابة (الحد الأقصى)17.50sزمن الاستجابة (الإجمالي)17.50s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1زمن الاستجابة (المتوسط)79.86sزمن الاستجابة (الحد الأقصى)79.86sزمن الاستجابة (الإجمالي)79.86s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)31.93sزمن الاستجابة (الحد الأقصى)31.93sزمن الاستجابة (الإجمالي)31.93s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)34.57sزمن الاستجابة (الحد الأقصى)49.12sزمن الاستجابة (الإجمالي)69.13s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.54sزمن الاستجابة (الحد الأقصى)7.54sزمن الاستجابة (الإجمالي)7.54s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)6.11sزمن الاستجابة (الحد الأقصى)14.72sزمن الاستجابة (الإجمالي)97.74s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 3معدل النجاح لكل محاولة: 83.3%اختبارات غير مستقرة: 1…رموز الإخراج: 1,586رموز الاستدلال: 19,950زمن الاستجابة: المتوسط 6.11s · الإجمالي 97.74s · الحد الأقصى 14.72s
إجابة خاطئة: 3
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.50sزمن الاستجابة (الحد الأقصى)4.31sزمن الاستجابة (الإجمالي)10.49s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.27sزمن الاستجابة (الحد الأقصى)3.27sزمن الاستجابة (الإجمالي)3.27s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.40sزمن الاستجابة (الحد الأقصى)14.72sزمن الاستجابة (الإجمالي)18.80s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)8.05sزمن الاستجابة (الحد الأقصى)14.40sزمن الاستجابة (الإجمالي)24.15s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.68sزمن الاستجابة (الحد الأقصى)3.68sزمن الاستجابة (الإجمالي)3.68s
Instructions following: 9.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.02sزمن الاستجابة (الحد الأقصى)7.35sزمن الاستجابة (الإجمالي)14.03s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.11sزمن الاستجابة (الحد الأقصى)10.27sزمن الاستجابة (الإجمالي)18.32s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.99sزمن الاستجابة (الحد الأقصى)4.99sزمن الاستجابة (الإجمالي)4.99s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)7.15sزمن الاستجابة (الحد الأقصى)11.96sزمن الاستجابة (الإجمالي)64.34s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 3معدل النجاح لكل محاولة: 81.3%اختبارات غير مستقرة: 0…رموز الإخراج: 1,502رموز الاستدلال: 9,706زمن الاستجابة: المتوسط 7.15s · الإجمالي 64.34s · الحد الأقصى 11.96s
إجابة خاطئة: 3
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.75sزمن الاستجابة (الحد الأقصى)3.75sزمن الاستجابة (الإجمالي)3.75s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)10.37sزمن الاستجابة (الحد الأقصى)10.37sزمن الاستجابة (الإجمالي)10.37s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)10.84sزمن الاستجابة (الحد الأقصى)10.84sزمن الاستجابة (الإجمالي)10.84s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)7.01sزمن الاستجابة (الحد الأقصى)7.01sزمن الاستجابة (الإجمالي)7.01s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.34sزمن الاستجابة (الحد الأقصى)9.34sزمن الاستجابة (الإجمالي)9.34s
Instructions following: 9.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.26sزمن الاستجابة (الحد الأقصى)3.26sزمن الاستجابة (الإجمالي)3.26s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.91sزمن الاستجابة (الحد الأقصى)4.23sزمن الاستجابة (الإجمالي)7.81s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.96sزمن الاستجابة (الحد الأقصى)11.96sزمن الاستجابة (الإجمالي)11.96s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 2زمن الاستجابة (المتوسط)16.59sزمن الاستجابة (الحد الأقصى)100.93sزمن الاستجابة (الإجمالي)265.39s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 83.3%اختبارات غير مستقرة: 2…رموز الإخراج: 1,764رموز الاستدلال: 33,348زمن الاستجابة: المتوسط 16.59s · الإجمالي 265.39s · الحد الأقصى 100.93s
لم يتبع التعليمات: 2إجابة خاطئة: 2
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.69sزمن الاستجابة (الحد الأقصى)6.68sزمن الاستجابة (الإجمالي)14.06s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)19.56sزمن الاستجابة (الحد الأقصى)19.56sزمن الاستجابة (الإجمالي)19.56s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.07sزمن الاستجابة (الحد الأقصى)3.59sزمن الاستجابة (الإجمالي)6.15s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)64.31sزمن الاستجابة (الحد الأقصى)100.93sزمن الاستجابة (الإجمالي)192.94s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.87sزمن الاستجابة (الحد الأقصى)4.87sزمن الاستجابة (الإجمالي)4.87s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.04sزمن الاستجابة (الحد الأقصى)3.44sزمن الاستجابة (الإجمالي)6.07s
Puzzle Solving: 9.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)5.12sزمن الاستجابة (الحد الأقصى)8.73sزمن الاستجابة (الإجمالي)15.37s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.37sزمن الاستجابة (الحد الأقصى)6.37sزمن الاستجابة (الإجمالي)6.37s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)52.13sزمن الاستجابة (الحد الأقصى)163.96sزمن الاستجابة (الإجمالي)834.16s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 81.3%اختبارات غير مستقرة: 2…رموز الإخراج: 1,658رموز الاستدلال: 200,786زمن الاستجابة: المتوسط 52.13s · الإجمالي 834.16s · الحد الأقصى 163.96s
لم يتبع التعليمات: 2انتهت المهلة: 1إجابة خاطئة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.69sزمن الاستجابة (الحد الأقصى)10.84sزمن الاستجابة (الإجمالي)29.06s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)163.96sزمن الاستجابة (الحد الأقصى)163.96sزمن الاستجابة (الإجمالي)163.96s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)30.26sزمن الاستجابة (الحد الأقصى)32.03sزمن الاستجابة (الإجمالي)60.52s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)79.53sزمن الاستجابة (الحد الأقصى)95.52sزمن الاستجابة (الإجمالي)238.59s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)101.41sزمن الاستجابة (الحد الأقصى)101.41sزمن الاستجابة (الإجمالي)101.41s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)19.66sزمن الاستجابة (الحد الأقصى)32.25sزمن الاستجابة (الإجمالي)39.32s
Puzzle Solving: 8.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)64.61sزمن الاستجابة (الحد الأقصى)123.57sزمن الاستجابة (الإجمالي)193.84s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.45sزمن الاستجابة (الحد الأقصى)7.45sزمن الاستجابة (الإجمالي)7.45s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)68.83sزمن الاستجابة (الحد الأقصى)280.52sزمن الاستجابة (الإجمالي)1101.32s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 77.1%اختبارات غير مستقرة: 1…رموز الإخراج: 1,283رموز الاستدلال: 1,533,310زمن الاستجابة: المتوسط 68.83s · الإجمالي 1101.32s · الحد الأقصى 280.52s
إجابة خاطئة: 3لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)43.87sزمن الاستجابة (الحد الأقصى)121.88sزمن الاستجابة (الإجمالي)131.62s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)280.52sزمن الاستجابة (الحد الأقصى)280.52sزمن الاستجابة (الإجمالي)280.52s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.16sزمن الاستجابة (الحد الأقصى)8.54sزمن الاستجابة (الإجمالي)14.31s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)127.58sزمن الاستجابة (الحد الأقصى)133.93sزمن الاستجابة (الإجمالي)382.74s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.25sزمن الاستجابة (الحد الأقصى)5.25sزمن الاستجابة (الإجمالي)5.25s
Instructions following: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)70.07sزمن الاستجابة (الحد الأقصى)136.53sزمن الاستجابة (الإجمالي)140.14s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)46.33sزمن الاستجابة (الحد الأقصى)134.22sزمن الاستجابة (الإجمالي)139.00s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.73sزمن الاستجابة (الحد الأقصى)7.73sزمن الاستجابة (الإجمالي)7.73s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 2زمن الاستجابة (المتوسط)20.05sزمن الاستجابة (الحد الأقصى)100.41sزمن الاستجابة (الإجمالي)320.87s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 83.3%اختبارات غير مستقرة: 3…رموز الإخراج: 1,756رموز الاستدلال: 46,642زمن الاستجابة: المتوسط 20.05s · الإجمالي 320.87s · الحد الأقصى 100.41s
لم يتبع التعليمات: 2إجابة خاطئة: 2
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.02sزمن الاستجابة (الحد الأقصى)6.42sزمن الاستجابة (الإجمالي)15.06s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)20.57sزمن الاستجابة (الحد الأقصى)20.57sزمن الاستجابة (الإجمالي)20.57s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.32sزمن الاستجابة (الحد الأقصى)5.40sزمن الاستجابة (الإجمالي)10.64s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)74.27sزمن الاستجابة (الحد الأقصى)100.41sزمن الاستجابة (الإجمالي)222.80s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.92sزمن الاستجابة (الحد الأقصى)4.92sزمن الاستجابة (الإجمالي)4.92s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.11sزمن الاستجابة (الحد الأقصى)3.68sزمن الاستجابة (الإجمالي)6.22s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)9.13sزمن الاستجابة (الحد الأقصى)18.14sزمن الاستجابة (الإجمالي)27.39s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)13.28sزمن الاستجابة (الحد الأقصى)13.28sزمن الاستجابة (الإجمالي)13.28s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3انتهت المهلة: 1زمن الاستجابة (المتوسط)29.74sزمن الاستجابة (الحد الأقصى)119.29sزمن الاستجابة (الإجمالي)475.83s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 79.2%اختبارات غير مستقرة: 2…رموز الإخراج: 17,292رموز الاستدلال: 145,625زمن الاستجابة: المتوسط 29.74s · الإجمالي 475.83s · الحد الأقصى 119.29s
إجابة خاطئة: 3انتهت المهلة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.99sزمن الاستجابة (الحد الأقصى)11.62sزمن الاستجابة (الإجمالي)20.98s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)107.79sزمن الاستجابة (الحد الأقصى)107.79sزمن الاستجابة (الإجمالي)107.79s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)23.41sزمن الاستجابة (الحد الأقصى)29.79sزمن الاستجابة (الإجمالي)46.83s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)63.40sزمن الاستجابة (الحد الأقصى)119.29sزمن الاستجابة (الإجمالي)190.20s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1زمن الاستجابة (المتوسط)34.11sزمن الاستجابة (الحد الأقصى)34.11sزمن الاستجابة (الإجمالي)34.11s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.88sزمن الاستجابة (الحد الأقصى)15.44sزمن الاستجابة (الإجمالي)19.76s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)17.18sزمن الاستجابة (الحد الأقصى)31.99sزمن الاستجابة (الإجمالي)51.55s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.60sزمن الاستجابة (الحد الأقصى)4.60sزمن الاستجابة (الإجمالي)4.60s
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 77.1%اختبارات غير مستقرة: 1…رموز الإخراج: 35,159رموز الاستدلال: 24,687زمن الاستجابة: المتوسط 11.23s · الإجمالي 89.84s · الحد الأقصى 46.35s
تنسيق إضافي: 2انتهت المهلة: 1إجابة خاطئة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 1زمن الاستجابة (المتوسط)4.95sزمن الاستجابة (الحد الأقصى)4.95sزمن الاستجابة (الإجمالي)4.95s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)46.35sزمن الاستجابة (الحد الأقصى)46.35sزمن الاستجابة (الإجمالي)46.35s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)13.90sزمن الاستجابة (الحد الأقصى)13.90sزمن الاستجابة (الإجمالي)13.90s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 1انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.94sزمن الاستجابة (الحد الأقصى)4.94sزمن الاستجابة (الإجمالي)4.94s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.61sزمن الاستجابة (الحد الأقصى)2.61sزمن الاستجابة (الإجمالي)2.61s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.80sزمن الاستجابة (الحد الأقصى)5.22sزمن الاستجابة (الإجمالي)9.60s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.48sزمن الاستجابة (الحد الأقصى)7.48sزمن الاستجابة (الإجمالي)7.48s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.83sزمن الاستجابة (الحد الأقصى)14.93sزمن الاستجابة (الإجمالي)61.25s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 68.8%اختبارات غير مستقرة: 0…رموز الإخراج: 1,731رموز الاستدلال: 25,821زمن الاستجابة: المتوسط 3.83s · الإجمالي 61.25s · الحد الأقصى 14.93s
إجابة خاطئة: 4لم يتبع التعليمات: 1
Anti-AI Tricks: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.53sزمن الاستجابة (الحد الأقصى)3.89sزمن الاستجابة (الإجمالي)7.58s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)14.93sزمن الاستجابة (الحد الأقصى)14.93sزمن الاستجابة (الإجمالي)14.93s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.29sزمن الاستجابة (الحد الأقصى)2.31sزمن الاستجابة (الإجمالي)4.59s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)4.21sزمن الاستجابة (الحد الأقصى)5.86sزمن الاستجابة (الإجمالي)12.62s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.16sزمن الاستجابة (الحد الأقصى)3.16sزمن الاستجابة (الإجمالي)3.16s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.91sزمن الاستجابة (الحد الأقصى)1.93sزمن الاستجابة (الإجمالي)3.82s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.58sزمن الاستجابة (الحد الأقصى)4.41sزمن الاستجابة (الإجمالي)10.75s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.80sزمن الاستجابة (الحد الأقصى)3.80sزمن الاستجابة (الإجمالي)3.80s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1لا توجد إجابة: 1انتهت المهلة: 1زمن الاستجابة (المتوسط)16.16sزمن الاستجابة (الحد الأقصى)28.96sزمن الاستجابة (الإجمالي)129.26s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 83.3%اختبارات غير مستقرة: 4…رموز الإخراج: 19,773رموز الاستدلال: 36,459زمن الاستجابة: المتوسط 16.16s · الإجمالي 129.26s · الحد الأقصى 28.96s
إجابة خاطئة: 2لم يتبع التعليمات: 1لا توجد إجابة: 1انتهت المهلة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)22.26sزمن الاستجابة (الحد الأقصى)22.26sزمن الاستجابة (الإجمالي)22.26s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)28.96sزمن الاستجابة (الحد الأقصى)28.96sزمن الاستجابة (الإجمالي)28.96s
Data parsing and extraction: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)8.90sزمن الاستجابة (الحد الأقصى)8.90sزمن الاستجابة (الإجمالي)8.90s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2انتهت المهلة: 1زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)14.69sزمن الاستجابة (الحد الأقصى)14.69sزمن الاستجابة (الإجمالي)14.69s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.25sزمن الاستجابة (الحد الأقصى)7.25sزمن الاستجابة (الإجمالي)7.25s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.64sزمن الاستجابة (الحد الأقصى)16.34sزمن الاستجابة (الإجمالي)31.27s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.93sزمن الاستجابة (الحد الأقصى)15.93sزمن الاستجابة (الإجمالي)15.93s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)7.03sزمن الاستجابة (الحد الأقصى)38.52sزمن الاستجابة (الإجمالي)112.51s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 75.0%اختبارات غير مستقرة: 2…رموز الإخراج: 15,845رموز الاستدلال: 0زمن الاستجابة: المتوسط 7.03s · الإجمالي 112.51s · الحد الأقصى 38.52s
إجابة خاطئة: 4لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.97sزمن الاستجابة (الحد الأقصى)4.78sزمن الاستجابة (الإجمالي)11.90s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.12sزمن الاستجابة (الحد الأقصى)9.12sزمن الاستجابة (الإجمالي)9.12s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.05sزمن الاستجابة (الحد الأقصى)3.33sزمن الاستجابة (الإجمالي)6.10s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)17.78sزمن الاستجابة (الحد الأقصى)38.52sزمن الاستجابة (الإجمالي)53.33s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.20sزمن الاستجابة (الحد الأقصى)3.20sزمن الاستجابة (الإجمالي)3.20s
Instructions following: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)5.46sزمن الاستجابة (الحد الأقصى)6.45sزمن الاستجابة (الإجمالي)10.92s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.42sزمن الاستجابة (الحد الأقصى)5.04sزمن الاستجابة (الإجمالي)13.27s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.68sزمن الاستجابة (الحد الأقصى)4.68sزمن الاستجابة (الإجمالي)4.68s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)12.35sزمن الاستجابة (الحد الأقصى)95.48sزمن الاستجابة (الإجمالي)197.62s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 72.9%اختبارات غير مستقرة: 1…رموز الإخراج: 1,370رموز الاستدلال: 110,522زمن الاستجابة: المتوسط 12.35s · الإجمالي 197.62s · الحد الأقصى 95.48s
إجابة خاطئة: 4لم يتبع التعليمات: 1
Anti-AI Tricks: 7.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)6.98sزمن الاستجابة (الحد الأقصى)15.56sزمن الاستجابة (الإجمالي)20.95s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)28.44sزمن الاستجابة (الحد الأقصى)28.44sزمن الاستجابة (الإجمالي)28.44s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.06sزمن الاستجابة (الحد الأقصى)5.06sزمن الاستجابة (الإجمالي)8.11s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)37.34sزمن الاستجابة (الحد الأقصى)95.48sزمن الاستجابة (الإجمالي)112.01s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.86sزمن الاستجابة (الحد الأقصى)4.86sزمن الاستجابة (الإجمالي)4.86s
Instructions following: 9.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.62sزمن الاستجابة (الحد الأقصى)2.78sزمن الاستجابة (الإجمالي)5.24s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.94sزمن الاستجابة (الحد الأقصى)6.33sزمن الاستجابة (الإجمالي)11.83s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.20sزمن الاستجابة (الحد الأقصى)6.20sزمن الاستجابة (الإجمالي)6.20s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.36sزمن الاستجابة (الحد الأقصى)11.91sزمن الاستجابة (الإجمالي)53.84s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 68.8%اختبارات غير مستقرة: 0…رموز الإخراج: 1,611رموز الاستدلال: 7,272زمن الاستجابة: المتوسط 3.36s · الإجمالي 53.84s · الحد الأقصى 11.91s
إجابة خاطئة: 4لم يتبع التعليمات: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.18sزمن الاستجابة (الحد الأقصى)3.18sزمن الاستجابة (الإجمالي)6.53s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)11.91sزمن الاستجابة (الحد الأقصى)11.91sزمن الاستجابة (الإجمالي)11.91s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.00sزمن الاستجابة (الحد الأقصى)3.74sزمن الاستجابة (الإجمالي)5.99s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)2.36sزمن الاستجابة (الحد الأقصى)3.51sزمن الاستجابة (الإجمالي)7.07s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.54sزمن الاستجابة (الحد الأقصى)1.54sزمن الاستجابة (الإجمالي)1.54s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.49sزمن الاستجابة (الحد الأقصى)1.66sزمن الاستجابة (الإجمالي)2.99s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.76sزمن الاستجابة (الحد الأقصى)5.08sزمن الاستجابة (الإجمالي)8.27s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.54sزمن الاستجابة (الحد الأقصى)9.54sزمن الاستجابة (الإجمالي)9.54s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3لم يتبع التعليمات: 1انتهت المهلة: 1زمن الاستجابة (المتوسط)39.48sزمن الاستجابة (الحد الأقصى)93.11sزمن الاستجابة (الإجمالي)631.71s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 79.2%اختبارات غير مستقرة: 3…رموز الإخراج: 7,392رموز الاستدلال: 39,089زمن الاستجابة: المتوسط 39.48s · الإجمالي 631.71s · الحد الأقصى 93.11s
إجابة خاطئة: 3لم يتبع التعليمات: 1انتهت المهلة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)33.39sزمن الاستجابة (الحد الأقصى)44.23sزمن الاستجابة (الإجمالي)100.18s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)93.11sزمن الاستجابة (الحد الأقصى)93.11sزمن الاستجابة (الإجمالي)93.11s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)36.09sزمن الاستجابة (الحد الأقصى)39.12sزمن الاستجابة (الإجمالي)72.18s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)39.32sزمن الاستجابة (الحد الأقصى)79.03sزمن الاستجابة (الإجمالي)117.95s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)31.30sزمن الاستجابة (الحد الأقصى)31.30sزمن الاستجابة (الإجمالي)31.30s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)35.78sزمن الاستجابة (الحد الأقصى)47.30sزمن الاستجابة (الإجمالي)71.56s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)36.87sزمن الاستجابة (الحد الأقصى)59.22sزمن الاستجابة (الإجمالي)110.62s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)34.81sزمن الاستجابة (الحد الأقصى)34.81sزمن الاستجابة (الإجمالي)34.81s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 5زمن الاستجابة (المتوسط)1.75sزمن الاستجابة (الحد الأقصى)3.56sزمن الاستجابة (الإجمالي)15.71s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 75.0%اختبارات غير مستقرة: 2…رموز الإخراج: 1,411رموز الاستدلال: 0زمن الاستجابة: المتوسط 1.75s · الإجمالي 15.71s · الحد الأقصى 3.56s
إجابة خاطئة: 5
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.59sزمن الاستجابة (الحد الأقصى)1.59sزمن الاستجابة (الإجمالي)1.59s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.56sزمن الاستجابة (الحد الأقصى)3.56sزمن الاستجابة (الإجمالي)3.56s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.41sزمن الاستجابة (الحد الأقصى)1.41sزمن الاستجابة (الإجمالي)1.41s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)963msزمن الاستجابة (الحد الأقصى)963msزمن الاستجابة (الإجمالي)963ms
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.13sزمن الاستجابة (الحد الأقصى)1.13sزمن الاستجابة (الإجمالي)1.13s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.58sزمن الاستجابة (الحد الأقصى)1.58sزمن الاستجابة (الإجمالي)1.58s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.06sزمن الاستجابة (الحد الأقصى)1.06sزمن الاستجابة (الإجمالي)2.12s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.35sزمن الاستجابة (الحد الأقصى)3.35sزمن الاستجابة (الإجمالي)3.35s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3خطأ API: 1لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)25.33sزمن الاستجابة (الحد الأقصى)96.01sزمن الاستجابة (الإجمالي)253.33s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 72.9%اختبارات غير مستقرة: 1…رموز الإخراج: 11,613رموز الاستدلال: 106,714زمن الاستجابة: المتوسط 25.33s · الإجمالي 253.33s · الحد الأقصى 96.01s
إجابة خاطئة: 3خطأ API: 1لم يتبع التعليمات: 1
Anti-AI Tricks: 9.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)16.79sزمن الاستجابة (الحد الأقصى)20.83sزمن الاستجابة (الإجمالي)33.57s
Combined: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)75.68sزمن الاستجابة (الحد الأقصى)75.68sزمن الاستجابة (الإجمالي)75.68s
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)96.01sزمن الاستجابة (الحد الأقصى)96.01sزمن الاستجابة (الإجمالي)96.01s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.20sزمن الاستجابة (الحد الأقصى)4.20sزمن الاستجابة (الإجمالي)4.20s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.28sزمن الاستجابة (الحد الأقصى)7.37sزمن الاستجابة (الإجمالي)8.55s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.77sزمن الاستجابة (الحد الأقصى)5.26sزمن الاستجابة (الإجمالي)7.55s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)27.78sزمن الاستجابة (الحد الأقصى)27.78sزمن الاستجابة (الإجمالي)27.78s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 3إجابة خاطئة: 3زمن الاستجابة (المتوسط)29.10sزمن الاستجابة (الحد الأقصى)170.45sزمن الاستجابة (الإجمالي)290.96s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 68.8%اختبارات غير مستقرة: 2…رموز الإخراج: 71,452رموز الاستدلال: 155,147زمن الاستجابة: المتوسط 29.10s · الإجمالي 290.96s · الحد الأقصى 170.45s
لم يتبع التعليمات: 3إجابة خاطئة: 3
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)18.54sزمن الاستجابة (الحد الأقصى)32.30sزمن الاستجابة (الإجمالي)37.07s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)29.57sزمن الاستجابة (الحد الأقصى)29.57sزمن الاستجابة (الإجمالي)29.57s
Data parsing and extraction: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.01sزمن الاستجابة (الحد الأقصى)15.01sزمن الاستجابة (الإجمالي)15.01s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)170.45sزمن الاستجابة (الحد الأقصى)170.45sزمن الاستجابة (الإجمالي)170.45s
General Intelligence: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)6.54sزمن الاستجابة (الحد الأقصى)6.54sزمن الاستجابة (الإجمالي)6.54s
Instructions following: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.98sزمن الاستجابة (الحد الأقصى)4.98sزمن الاستجابة (الإجمالي)4.98s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.72sزمن الاستجابة (الحد الأقصى)10.60sزمن الاستجابة (الإجمالي)15.44s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.91sزمن الاستجابة (الحد الأقصى)11.91sزمن الاستجابة (الإجمالي)11.91s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)5.96sزمن الاستجابة (الحد الأقصى)18.33sزمن الاستجابة (الإجمالي)95.30s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 70.8%اختبارات غير مستقرة: 3…رموز الإخراج: 19,272رموز الاستدلال: 0زمن الاستجابة: المتوسط 5.96s · الإجمالي 95.30s · الحد الأقصى 18.33s
إجابة خاطئة: 4لم يتبع التعليمات: 2
Anti-AI Tricks: 7.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.72sزمن الاستجابة (الحد الأقصى)7.35sزمن الاستجابة (الإجمالي)14.17s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.96sزمن الاستجابة (الحد الأقصى)11.96sزمن الاستجابة (الإجمالي)11.96s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.21sزمن الاستجابة (الحد الأقصى)2.52sزمن الاستجابة (الإجمالي)4.42s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)13.01sزمن الاستجابة (الحد الأقصى)18.33sزمن الاستجابة (الإجمالي)39.04s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.99sزمن الاستجابة (الحد الأقصى)1.99sزمن الاستجابة (الإجمالي)1.99s
Instructions following: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.29sزمن الاستجابة (الحد الأقصى)4.18sزمن الاستجابة (الإجمالي)6.59s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.93sزمن الاستجابة (الحد الأقصى)3.05sزمن الاستجابة (الإجمالي)8.78s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)8.36sزمن الاستجابة (الحد الأقصى)8.36sزمن الاستجابة (الإجمالي)8.36s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)1.33sزمن الاستجابة (الحد الأقصى)3.39sزمن الاستجابة (الإجمالي)21.27s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 66.7%اختبارات غير مستقرة: 1…رموز الإخراج: 4,715رموز الاستدلال: 0زمن الاستجابة: المتوسط 1.33s · الإجمالي 21.27s · الحد الأقصى 3.39s
إجابة خاطئة: 4لم يتبع التعليمات: 2
Anti-AI Tricks: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.16sزمن الاستجابة (الحد الأقصى)1.47sزمن الاستجابة (الإجمالي)3.49s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.20sزمن الاستجابة (الحد الأقصى)3.20sزمن الاستجابة (الإجمالي)3.20s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.22sزمن الاستجابة (الحد الأقصى)1.33sزمن الاستجابة (الإجمالي)2.44s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)942msزمن الاستجابة (الحد الأقصى)1.12sزمن الاستجابة (الإجمالي)2.83s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)741msزمن الاستجابة (الحد الأقصى)741msزمن الاستجابة (الإجمالي)741ms
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.13sزمن الاستجابة (الحد الأقصى)1.14sزمن الاستجابة (الإجمالي)2.27s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)972msزمن الاستجابة (الحد الأقصى)1.13sزمن الاستجابة (الإجمالي)2.92s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.39sزمن الاستجابة (الحد الأقصى)3.39sزمن الاستجابة (الإجمالي)3.39s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 4لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)65.09sزمن الاستجابة (الحد الأقصى)262.83sزمن الاستجابة (الإجمالي)846.14s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 68.8%اختبارات غير مستقرة: 2…رموز الإخراج: 1,965رموز الاستدلال: 58,456زمن الاستجابة: المتوسط 65.09s · الإجمالي 846.14s · الحد الأقصى 262.83s
انتهت المهلة: 4لم يتبع التعليمات: 1إجابة خاطئة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1زمن الاستجابة (المتوسط)98.99sزمن الاستجابة (الحد الأقصى)182.10sزمن الاستجابة (الإجمالي)296.96s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)262.83sزمن الاستجابة (الحد الأقصى)262.83sزمن الاستجابة (الإجمالي)262.83s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)24.27sزمن الاستجابة (الحد الأقصى)27.52sزمن الاستجابة (الإجمالي)48.54s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 3زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms
General Intelligence: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)36.65sزمن الاستجابة (الحد الأقصى)36.65sزمن الاستجابة (الإجمالي)36.65s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)17.47sزمن الاستجابة (الحد الأقصى)19.46sزمن الاستجابة (الإجمالي)34.93s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)25.85sزمن الاستجابة (الحد الأقصى)32.95sزمن الاستجابة (الإجمالي)77.55s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)88.68sزمن الاستجابة (الحد الأقصى)88.68sزمن الاستجابة (الإجمالي)88.68s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 3خطأ API: 1لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)70.81sزمن الاستجابة (الحد الأقصى)234.29sزمن الاستجابة (الإجمالي)1132.90s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 81.3%اختبارات غير مستقرة: 5…رموز الإخراج: 1,807رموز الاستدلال: 169,952زمن الاستجابة: المتوسط 70.81s · الإجمالي 1132.90s · الحد الأقصى 234.29s
انتهت المهلة: 3خطأ API: 1لم يتبع التعليمات: 1إجابة خاطئة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)71.35sزمن الاستجابة (الحد الأقصى)168.31sزمن الاستجابة (الإجمالي)214.06s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)17.78sزمن الاستجابة (الحد الأقصى)17.78sزمن الاستجابة (الإجمالي)17.78s
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)56.99sزمن الاستجابة (الحد الأقصى)80.14sزمن الاستجابة (الإجمالي)113.98s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)146.50sزمن الاستجابة (الحد الأقصى)234.29sزمن الاستجابة (الإجمالي)439.49s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)40.05sزمن الاستجابة (الحد الأقصى)40.05sزمن الاستجابة (الإجمالي)40.05s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)63.49sزمن الاستجابة (الحد الأقصى)111.61sزمن الاستجابة (الإجمالي)126.98s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 2زمن الاستجابة (المتوسط)56.74sزمن الاستجابة (الحد الأقصى)115.01sزمن الاستجابة (الإجمالي)170.23s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)10.33sزمن الاستجابة (الحد الأقصى)10.33sزمن الاستجابة (الإجمالي)10.33s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 3إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)5.57sزمن الاستجابة (الحد الأقصى)23.84sزمن الاستجابة (الإجمالي)50.12s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 66.7%اختبارات غير مستقرة: 1…رموز الإخراج: 6,895رموز الاستدلال: 0زمن الاستجابة: المتوسط 5.57s · الإجمالي 50.12s · الحد الأقصى 23.84s
تنسيق إضافي: 3إجابة خاطئة: 2لم يتبع التعليمات: 1
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 2زمن الاستجابة (المتوسط)4.83sزمن الاستجابة (الحد الأقصى)4.83sزمن الاستجابة (الإجمالي)4.83s
Combined: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)23.84sزمن الاستجابة (الحد الأقصى)23.84sزمن الاستجابة (الإجمالي)23.84s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.43sزمن الاستجابة (الحد الأقصى)3.43sزمن الاستجابة (الإجمالي)3.43s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.54sزمن الاستجابة (الحد الأقصى)3.54sزمن الاستجابة (الإجمالي)3.54s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.56sزمن الاستجابة (الحد الأقصى)2.56sزمن الاستجابة (الإجمالي)2.56s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.96sزمن الاستجابة (الحد الأقصى)1.96sزمن الاستجابة (الإجمالي)1.96s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 1زمن الاستجابة (المتوسط)2.92sزمن الاستجابة (الحد الأقصى)3.33sزمن الاستجابة (الإجمالي)5.84s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.11sزمن الاستجابة (الحد الأقصى)4.11sزمن الاستجابة (الإجمالي)4.11s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 4إجابة خاطئة: 2زمن الاستجابة (المتوسط)22.86sزمن الاستجابة (الحد الأقصى)83.40sزمن الاستجابة (الإجمالي)205.71s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 66.7%اختبارات غير مستقرة: 2…رموز الإخراج: 26,254رموز الاستدلال: 17,363زمن الاستجابة: المتوسط 22.86s · الإجمالي 205.71s · الحد الأقصى 83.40s
تنسيق إضافي: 4إجابة خاطئة: 2
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 2زمن الاستجابة (المتوسط)11.88sزمن الاستجابة (الحد الأقصى)11.88sزمن الاستجابة (الإجمالي)11.88s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)76.66sزمن الاستجابة (الحد الأقصى)76.66sزمن الاستجابة (الإجمالي)76.66s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.37sزمن الاستجابة (الحد الأقصى)7.37sزمن الاستجابة (الإجمالي)7.37s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)83.40sزمن الاستجابة (الحد الأقصى)83.40sزمن الاستجابة (الإجمالي)83.40s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.04sزمن الاستجابة (الحد الأقصى)5.04sزمن الاستجابة (الإجمالي)5.04s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.43sزمن الاستجابة (الحد الأقصى)2.43sزمن الاستجابة (الإجمالي)2.43s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.60sزمن الاستجابة (الحد الأقصى)4.66sزمن الاستجابة (الإجمالي)9.20s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.73sزمن الاستجابة (الحد الأقصى)9.73sزمن الاستجابة (الإجمالي)9.73s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 3لا توجد إجابة: 1انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)15.33sزمن الاستجابة (الحد الأقصى)77.80sزمن الاستجابة (الإجمالي)138.01s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 75.0%اختبارات غير مستقرة: 4…رموز الإخراج: 2,220رموز الاستدلال: 16,811زمن الاستجابة: المتوسط 15.33s · الإجمالي 138.01s · الحد الأقصى 77.80s
لم يتبع التعليمات: 3لا توجد إجابة: 1انتهت المهلة: 1إجابة خاطئة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)14.34sزمن الاستجابة (الحد الأقصى)14.34sزمن الاستجابة (الإجمالي)14.34s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)14.06sزمن الاستجابة (الحد الأقصى)14.06sزمن الاستجابة (الإجمالي)14.06s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.15sزمن الاستجابة (الحد الأقصى)3.15sزمن الاستجابة (الإجمالي)3.15s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)77.80sزمن الاستجابة (الحد الأقصى)77.80sزمن الاستجابة (الإجمالي)77.80s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.32sزمن الاستجابة (الحد الأقصى)4.32sزمن الاستجابة (الإجمالي)4.32s
Instructions following: 9.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.12sزمن الاستجابة (الحد الأقصى)3.12sزمن الاستجابة (الإجمالي)3.12s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)5.47sزمن الاستجابة (الحد الأقصى)6.45sزمن الاستجابة (الإجمالي)10.94s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)10.30sزمن الاستجابة (الحد الأقصى)10.30sزمن الاستجابة (الإجمالي)10.30s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3لم يتبع التعليمات: 2لا توجد إجابة: 1انتهت المهلة: 1زمن الاستجابة (المتوسط)69.83sزمن الاستجابة (الحد الأقصى)137.29sزمن الاستجابة (الإجمالي)628.45s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 7معدل النجاح لكل محاولة: 72.9%اختبارات غير مستقرة: 5…رموز الإخراج: 38,453رموز الاستدلال: 72,496زمن الاستجابة: المتوسط 69.83s · الإجمالي 628.45s · الحد الأقصى 137.29s
إجابة خاطئة: 3لم يتبع التعليمات: 2لا توجد إجابة: 1انتهت المهلة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)85.28sزمن الاستجابة (الحد الأقصى)85.28sزمن الاستجابة (الإجمالي)85.28s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)71.37sزمن الاستجابة (الحد الأقصى)71.37sزمن الاستجابة (الإجمالي)71.37s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)49.78sزمن الاستجابة (الحد الأقصى)49.78sزمن الاستجابة (الإجمالي)49.78s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2انتهت المهلة: 1زمن الاستجابة (المتوسط)137.29sزمن الاستجابة (الحد الأقصى)137.29sزمن الاستجابة (الإجمالي)137.29s
General Intelligence: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)69.73sزمن الاستجابة (الحد الأقصى)69.73sزمن الاستجابة (الإجمالي)69.73s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)92.47sزمن الاستجابة (الحد الأقصى)92.47sزمن الاستجابة (الإجمالي)92.47s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)45.40sزمن الاستجابة (الحد الأقصى)82.75sزمن الاستجابة (الإجمالي)90.79s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)31.74sزمن الاستجابة (الحد الأقصى)31.74sزمن الاستجابة (الإجمالي)31.74s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 7زمن الاستجابة (المتوسط)2.65sزمن الاستجابة (الحد الأقصى)6.65sزمن الاستجابة (الإجمالي)26.52s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 7معدل النجاح لكل محاولة: 58.3%اختبارات غير مستقرة: 1…رموز الإخراج: 2,015رموز الاستدلال: 0زمن الاستجابة: المتوسط 2.65s · الإجمالي 26.52s · الحد الأقصى 6.65s
إجابة خاطئة: 7
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)2.74sزمن الاستجابة (الحد الأقصى)2.74sزمن الاستجابة (الإجمالي)2.74s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)6.65sزمن الاستجابة (الحد الأقصى)6.65sزمن الاستجابة (الإجمالي)6.65s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.89sزمن الاستجابة (الحد الأقصى)1.89sزمن الاستجابة (الإجمالي)1.89s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)1.17sزمن الاستجابة (الحد الأقصى)1.44sزمن الاستجابة (الإجمالي)2.33s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.26sزمن الاستجابة (الحد الأقصى)2.26sزمن الاستجابة (الإجمالي)2.26s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.67sزمن الاستجابة (الحد الأقصى)1.67sزمن الاستجابة (الإجمالي)1.67s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.82sزمن الاستجابة (الحد الأقصى)3.52sزمن الاستجابة (الإجمالي)5.65s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.33sزمن الاستجابة (الحد الأقصى)3.33sزمن الاستجابة (الإجمالي)3.33s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 3إجابة خاطئة: 2لا توجد إجابة: 1انتهت المهلة: 1زمن الاستجابة (المتوسط)26.35sزمن الاستجابة (الحد الأقصى)121.79sزمن الاستجابة (الإجمالي)237.11s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 7معدل النجاح لكل محاولة: 66.7%اختبارات غير مستقرة: 4…رموز الإخراج: 1,183رموز الاستدلال: 83,875زمن الاستجابة: المتوسط 26.35s · الإجمالي 237.11s · الحد الأقصى 121.79s
لم يتبع التعليمات: 3إجابة خاطئة: 2لا توجد إجابة: 1انتهت المهلة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.65sزمن الاستجابة (الحد الأقصى)5.65sزمن الاستجابة (الإجمالي)5.65s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)37.64sزمن الاستجابة (الحد الأقصى)37.64sزمن الاستجابة (الإجمالي)37.64s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.63sزمن الاستجابة (الحد الأقصى)6.63sزمن الاستجابة (الإجمالي)6.63s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)121.79sزمن الاستجابة (الحد الأقصى)121.79sزمن الاستجابة (الإجمالي)121.79s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)16.25sزمن الاستجابة (الحد الأقصى)16.25sزمن الاستجابة (الإجمالي)16.25s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)5.30sزمن الاستجابة (الحد الأقصى)5.30sزمن الاستجابة (الإجمالي)5.30s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)8.08sزمن الاستجابة (الحد الأقصى)8.38sزمن الاستجابة (الإجمالي)16.17s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)27.71sزمن الاستجابة (الحد الأقصى)27.71sزمن الاستجابة (الإجمالي)27.71s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 7زمن الاستجابة (المتوسط)4.03sزمن الاستجابة (الحد الأقصى)11.07sزمن الاستجابة (الإجمالي)36.30s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 7معدل النجاح لكل محاولة: 56.3%اختبارات غير مستقرة: 0…رموز الإخراج: 1,548رموز الاستدلال: 0زمن الاستجابة: المتوسط 4.03s · الإجمالي 36.30s · الحد الأقصى 11.07s
إجابة خاطئة: 7
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)3.39sزمن الاستجابة (الحد الأقصى)3.39sزمن الاستجابة (الإجمالي)3.39s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.98sزمن الاستجابة (الحد الأقصى)4.98sزمن الاستجابة (الإجمالي)4.98s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.78sزمن الاستجابة (الحد الأقصى)5.78sزمن الاستجابة (الإجمالي)5.78s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)2.24sزمن الاستجابة (الحد الأقصى)2.24sزمن الاستجابة (الإجمالي)2.24s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.27sزمن الاستجابة (الحد الأقصى)3.27sزمن الاستجابة (الإجمالي)3.27s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.48sزمن الاستجابة (الحد الأقصى)1.48sزمن الاستجابة (الإجمالي)1.48s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.05sزمن الاستجابة (الحد الأقصى)2.08sزمن الاستجابة (الإجمالي)4.10s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.07sزمن الاستجابة (الحد الأقصى)11.07sزمن الاستجابة (الإجمالي)11.07s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 4إجابة خاطئة: 3انتهت المهلة: 1زمن الاستجابة (المتوسط)25.14sزمن الاستجابة (الحد الأقصى)88.15sزمن الاستجابة (الإجمالي)402.29s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 8معدل النجاح لكل محاولة: 58.3%اختبارات غير مستقرة: 2…رموز الإخراج: 5,826رموز الاستدلال: 48,768زمن الاستجابة: المتوسط 25.14s · الإجمالي 402.29s · الحد الأقصى 88.15s
لم يتبع التعليمات: 4إجابة خاطئة: 3انتهت المهلة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)16.45sزمن الاستجابة (الحد الأقصى)26.00sزمن الاستجابة (الإجمالي)49.36s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)88.15sزمن الاستجابة (الحد الأقصى)88.15sزمن الاستجابة (الإجمالي)88.15s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)12.58sزمن الاستجابة (الحد الأقصى)13.87sزمن الاستجابة (الإجمالي)25.16s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2انتهت المهلة: 1زمن الاستجابة (المتوسط)44.63sزمن الاستجابة (الحد الأقصى)82.55sزمن الاستجابة (الإجمالي)133.89s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)13.50sزمن الاستجابة (الحد الأقصى)13.50sزمن الاستجابة (الإجمالي)13.50s
Instructions following: 7.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)15.66sزمن الاستجابة (الحد الأقصى)21.80sزمن الاستجابة (الإجمالي)31.32s
Puzzle Solving: 4.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)14.09sزمن الاستجابة (الحد الأقصى)16.81sزمن الاستجابة (الإجمالي)42.28s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)18.64sزمن الاستجابة (الحد الأقصى)18.64sزمن الاستجابة (الإجمالي)18.64s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 4إجابة خاطئة: 2خطأ API: 1لا توجد إجابة: 1زمن الاستجابة (المتوسط)43.93sزمن الاستجابة (الحد الأقصى)106.00sزمن الاستجابة (الإجمالي)702.85s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 8معدل النجاح لكل محاولة: 77.1%اختبارات غير مستقرة: 7…رموز الإخراج: 5,495رموز الاستدلال: 169,266زمن الاستجابة: المتوسط 43.93s · الإجمالي 702.85s · الحد الأقصى 106.00s
انتهت المهلة: 4إجابة خاطئة: 2خطأ API: 1لا توجد إجابة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)21.75sزمن الاستجابة (الحد الأقصى)34.96sزمن الاستجابة (الإجمالي)65.26s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)75.34sزمن الاستجابة (الحد الأقصى)75.34sزمن الاستجابة (الإجمالي)75.34s
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)59.33sزمن الاستجابة (الحد الأقصى)97.12sزمن الاستجابة (الإجمالي)118.65s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)88.34sزمن الاستجابة (الحد الأقصى)106.00sزمن الاستجابة (الإجمالي)265.01s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1زمن الاستجابة (المتوسط)30.30sزمن الاستجابة (الحد الأقصى)30.30sزمن الاستجابة (الإجمالي)30.30s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)24.45sزمن الاستجابة (الحد الأقصى)43.36sزمن الاستجابة (الإجمالي)48.89s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)31.58sزمن الاستجابة (الحد الأقصى)60.18sزمن الاستجابة (الإجمالي)94.75s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.65sزمن الاستجابة (الحد الأقصى)4.65sزمن الاستجابة (الإجمالي)4.65s
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)8.79sزمن الاستجابة (الحد الأقصى)12.26sزمن الاستجابة (الإجمالي)26.38s
Combined: 8.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.invalid tool call: 1زمن الاستجابة (المتوسط)115.89sزمن الاستجابة (الحد الأقصى)115.89sزمن الاستجابة (الإجمالي)115.89s
Data parsing and extraction: 5.4يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)9.42sزمن الاستجابة (الحد الأقصى)16.20sزمن الاستجابة (الإجمالي)18.84s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.61sزمن الاستجابة (الحد الأقصى)1.77sزمن الاستجابة (الإجمالي)4.83s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.86sزمن الاستجابة (الحد الأقصى)2.86sزمن الاستجابة (الإجمالي)2.86s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.52sزمن الاستجابة (الحد الأقصى)1.99sزمن الاستجابة (الإجمالي)3.04s
Puzzle Solving: 7.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.37sزمن الاستجابة (الحد الأقصى)10.78sزمن الاستجابة (الإجمالي)22.10s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.85sزمن الاستجابة (الحد الأقصى)11.85sزمن الاستجابة (الإجمالي)11.85s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 5لم يتبع التعليمات: 3انتهت المهلة: 1زمن الاستجابة (المتوسط)47.94sزمن الاستجابة (الحد الأقصى)204.02sزمن الاستجابة (الإجمالي)431.47s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 9معدل النجاح لكل محاولة: 60.4%اختبارات غير مستقرة: 6…رموز الإخراج: 4,386رموز الاستدلال: 142,080زمن الاستجابة: المتوسط 47.94s · الإجمالي 431.47s · الحد الأقصى 204.02s
إجابة خاطئة: 5لم يتبع التعليمات: 3انتهت المهلة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)37.73sزمن الاستجابة (الحد الأقصى)37.73sزمن الاستجابة (الإجمالي)37.73s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)65.96sزمن الاستجابة (الحد الأقصى)65.96sزمن الاستجابة (الإجمالي)65.96s
Data parsing and extraction: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)21.42sزمن الاستجابة (الحد الأقصى)21.42sزمن الاستجابة (الإجمالي)21.42s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)204.02sزمن الاستجابة (الحد الأقصى)204.02sزمن الاستجابة (الإجمالي)204.02s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)17.51sزمن الاستجابة (الحد الأقصى)17.51sزمن الاستجابة (الإجمالي)17.51s
Instructions following: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)11.90sزمن الاستجابة (الحد الأقصى)11.90sزمن الاستجابة (الإجمالي)11.90s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)19.81sزمن الاستجابة (الحد الأقصى)21.31sزمن الاستجابة (الإجمالي)39.63s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)33.30sزمن الاستجابة (الحد الأقصى)33.30sزمن الاستجابة (الإجمالي)33.30s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 5لم يتبع التعليمات: 4زمن الاستجابة (المتوسط)2.36sزمن الاستجابة (الحد الأقصى)14.63sزمن الاستجابة (الإجمالي)35.39s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 9معدل النجاح لكل محاولة: 54.2%اختبارات غير مستقرة: 3…رموز الإخراج: 3,708رموز الاستدلال: 45,921زمن الاستجابة: المتوسط 2.36s · الإجمالي 35.39s · الحد الأقصى 14.63s
إجابة خاطئة: 5لم يتبع التعليمات: 4
Anti-AI Tricks: 7.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.30sزمن الاستجابة (الحد الأقصى)2.46sزمن الاستجابة (الإجمالي)3.89s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.28sزمن الاستجابة (الحد الأقصى)3.28sزمن الاستجابة (الإجمالي)3.28s
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.11sزمن الاستجابة (الحد الأقصى)1.47sزمن الاستجابة (الإجمالي)2.21s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)6.48sزمن الاستجابة (الحد الأقصى)14.63sزمن الاستجابة (الإجمالي)19.43s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)821msزمن الاستجابة (الحد الأقصى)821msزمن الاستجابة (الإجمالي)821ms
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.07sزمن الاستجابة (الحد الأقصى)1.07sزمن الاستجابة (الإجمالي)1.07s
Puzzle Solving: 1.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)934msزمن الاستجابة (الحد الأقصى)1.18sزمن الاستجابة (الإجمالي)2.80s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.89sزمن الاستجابة (الحد الأقصى)1.89sزمن الاستجابة (الإجمالي)1.89s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 8لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.54sزمن الاستجابة (الحد الأقصى)13.73sزمن الاستجابة (الإجمالي)56.70s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 9معدل النجاح لكل محاولة: 45.8%اختبارات غير مستقرة: 1…رموز الإخراج: 3,774رموز الاستدلال: 0زمن الاستجابة: المتوسط 3.54s · الإجمالي 56.70s · الحد الأقصى 13.73s
إجابة خاطئة: 8لم يتبع التعليمات: 1
Anti-AI Tricks: 2.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.62sزمن الاستجابة (الحد الأقصى)3.89sزمن الاستجابة (الإجمالي)4.85s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)6.22sزمن الاستجابة (الحد الأقصى)6.22sزمن الاستجابة (الإجمالي)6.22s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.57sزمن الاستجابة (الحد الأقصى)1.83sزمن الاستجابة (الإجمالي)3.14s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)905msزمن الاستجابة (الحد الأقصى)1.10sزمن الاستجابة (الإجمالي)2.71s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)803msزمن الاستجابة (الحد الأقصى)803msزمن الاستجابة (الإجمالي)803ms
Instructions following: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)8.81sزمن الاستجابة (الحد الأقصى)13.73sزمن الاستجابة (الإجمالي)17.61s
Puzzle Solving: 1.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)5.90sزمن الاستجابة (الحد الأقصى)12.19sزمن الاستجابة (الإجمالي)17.69s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.67sزمن الاستجابة (الحد الأقصى)3.67sزمن الاستجابة (الإجمالي)3.67s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 5لم يتبع التعليمات: 4زمن الاستجابة (المتوسط)16.65sزمن الاستجابة (الحد الأقصى)50.92sزمن الاستجابة (الإجمالي)149.88s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 9معدل النجاح لكل محاولة: 54.2%اختبارات غير مستقرة: 5…رموز الإخراج: 13,210رموز الاستدلال: 34,230زمن الاستجابة: المتوسط 16.65s · الإجمالي 149.88s · الحد الأقصى 50.92s
إجابة خاطئة: 5لم يتبع التعليمات: 4
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)19.76sزمن الاستجابة (الحد الأقصى)19.76sزمن الاستجابة (الإجمالي)19.76s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)31.18sزمن الاستجابة (الحد الأقصى)31.18sزمن الاستجابة (الإجمالي)31.18s
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.98sزمن الاستجابة (الحد الأقصى)1.98sزمن الاستجابة (الإجمالي)1.98s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)50.92sزمن الاستجابة (الحد الأقصى)50.92sزمن الاستجابة (الإجمالي)50.92s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)7.90sزمن الاستجابة (الحد الأقصى)7.90sزمن الاستجابة (الإجمالي)7.90s
Instructions following: 9.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.63sزمن الاستجابة (الحد الأقصى)7.63sزمن الاستجابة (الإجمالي)7.63s
Puzzle Solving: 1.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)11.80sزمن الاستجابة (الحد الأقصى)12.60sزمن الاستجابة (الإجمالي)23.61s
Tool Calling: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.91sزمن الاستجابة (الحد الأقصى)6.91sزمن الاستجابة (الإجمالي)6.91s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)923msزمن الاستجابة (الحد الأقصى)4.39sزمن الاستجابة (الإجمالي)14.78s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 10معدل النجاح لكل محاولة: 43.8%اختبارات غير مستقرة: 2…رموز الإخراج: 1,270رموز الاستدلال: 0زمن الاستجابة: المتوسط 923ms · الإجمالي 14.78s · الحد الأقصى 4.39s
إجابة خاطئة: 9لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)668msزمن الاستجابة (الحد الأقصى)844msزمن الاستجابة (الإجمالي)2.01s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.39sزمن الاستجابة (الحد الأقصى)4.39sزمن الاستجابة (الإجمالي)4.39s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)652msزمن الاستجابة (الحد الأقصى)660msزمن الاستجابة (الإجمالي)1.30s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)495msزمن الاستجابة (الحد الأقصى)642msزمن الاستجابة (الإجمالي)1.49s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)615msزمن الاستجابة (الحد الأقصى)615msزمن الاستجابة (الإجمالي)615ms
Instructions following: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)672msزمن الاستجابة (الحد الأقصى)785msزمن الاستجابة (الإجمالي)1.34s
Puzzle Solving: 4.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)576msزمن الاستجابة (الحد الأقصى)700msزمن الاستجابة (الإجمالي)1.73s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.91sزمن الاستجابة (الحد الأقصى)1.91sزمن الاستجابة (الإجمالي)1.91s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.72sزمن الاستجابة (الحد الأقصى)46.00sزمن الاستجابة (الإجمالي)59.46s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 10معدل النجاح لكل محاولة: 39.6%اختبارات غير مستقرة: 1…رموز الإخراج: 2,679رموز الاستدلال: 0زمن الاستجابة: المتوسط 3.72s · الإجمالي 59.46s · الحد الأقصى 46.00s
إجابة خاطئة: 9لم يتبع التعليمات: 1
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)927msزمن الاستجابة (الحد الأقصى)1.38sزمن الاستجابة (الإجمالي)2.78s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)46.00sزمن الاستجابة (الحد الأقصى)46.00sزمن الاستجابة (الإجمالي)46.00s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.01sزمن الاستجابة (الحد الأقصى)1.06sزمن الاستجابة (الإجمالي)2.02s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)465msزمن الاستجابة (الحد الأقصى)492msزمن الاستجابة (الإجمالي)1.39s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.12sزمن الاستجابة (الحد الأقصى)1.12sزمن الاستجابة (الإجمالي)1.12s
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)585msزمن الاستجابة (الحد الأقصى)715msزمن الاستجابة (الإجمالي)1.17s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)982msزمن الاستجابة (الحد الأقصى)1.36sزمن الاستجابة (الإجمالي)2.95s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.04sزمن الاستجابة (الحد الأقصى)2.04sزمن الاستجابة (الإجمالي)2.04s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 8لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)4.10sزمن الاستجابة (الحد الأقصى)47.43sزمن الاستجابة (الإجمالي)65.62s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 10معدل النجاح لكل محاولة: 50.0%اختبارات غير مستقرة: 3…رموز الإخراج: 3,756رموز الاستدلال: 0زمن الاستجابة: المتوسط 4.10s · الإجمالي 65.62s · الحد الأقصى 47.43s
إجابة خاطئة: 8لم يتبع التعليمات: 2
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.76sزمن الاستجابة (الحد الأقصى)4.39sزمن الاستجابة (الإجمالي)5.27s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)47.43sزمن الاستجابة (الحد الأقصى)47.43sزمن الاستجابة (الإجمالي)47.43s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.16sزمن الاستجابة (الحد الأقصى)1.42sزمن الاستجابة (الإجمالي)2.33s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)485msزمن الاستجابة (الحد الأقصى)549msزمن الاستجابة (الإجمالي)1.45s
General Intelligence: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.19sزمن الاستجابة (الحد الأقصى)1.19sزمن الاستجابة (الإجمالي)1.19s
Instructions following: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)809msزمن الاستجابة (الحد الأقصى)983msزمن الاستجابة (الإجمالي)1.62s
Puzzle Solving: 1.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.34sزمن الاستجابة (الحد الأقصى)2.25sزمن الاستجابة (الإجمالي)4.03s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.30sزمن الاستجابة (الحد الأقصى)2.30sزمن الاستجابة (الإجمالي)2.30s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.48sزمن الاستجابة (الحد الأقصى)2.89sزمن الاستجابة (الإجمالي)23.64s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 10معدل النجاح لكل محاولة: 41.7%اختبارات غير مستقرة: 2…رموز الإخراج: 1,819رموز الاستدلال: 0زمن الاستجابة: المتوسط 1.48s · الإجمالي 23.64s · الحد الأقصى 2.89s
إجابة خاطئة: 9لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.41sزمن الاستجابة (الحد الأقصى)2.58sزمن الاستجابة (الإجمالي)4.23s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.89sزمن الاستجابة (الحد الأقصى)2.89sزمن الاستجابة (الإجمالي)2.89s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.04sزمن الاستجابة (الحد الأقصى)1.06sزمن الاستجابة (الإجمالي)2.08s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)1.07sزمن الاستجابة (الحد الأقصى)1.54sزمن الاستجابة (الإجمالي)3.22s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.78sزمن الاستجابة (الحد الأقصى)1.78sزمن الاستجابة (الإجمالي)1.78s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.07sزمن الاستجابة (الحد الأقصى)1.17sزمن الاستجابة (الإجمالي)2.15s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.52sزمن الاستجابة (الحد الأقصى)1.82sزمن الاستجابة (الإجمالي)4.56s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.75sزمن الاستجابة (الحد الأقصى)2.75sزمن الاستجابة (الإجمالي)2.75s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)1.75sزمن الاستجابة (الحد الأقصى)9.39sزمن الاستجابة (الإجمالي)28.05s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 11معدل النجاح لكل محاولة: 37.5%اختبارات غير مستقرة: 2…رموز الإخراج: 3,161رموز الاستدلال: 0زمن الاستجابة: المتوسط 1.75s · الإجمالي 28.05s · الحد الأقصى 9.39s
إجابة خاطئة: 9لم يتبع التعليمات: 2
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)796msزمن الاستجابة (الحد الأقصى)1.34sزمن الاستجابة (الإجمالي)2.39s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)9.39sزمن الاستجابة (الحد الأقصى)9.39sزمن الاستجابة (الإجمالي)9.39s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.43sزمن الاستجابة (الحد الأقصى)1.45sزمن الاستجابة (الإجمالي)2.86s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)540msزمن الاستجابة (الحد الأقصى)649msزمن الاستجابة (الإجمالي)1.62s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.51sزمن الاستجابة (الحد الأقصى)2.51sزمن الاستجابة (الإجمالي)2.51s
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)815msزمن الاستجابة (الحد الأقصى)973msزمن الاستجابة (الإجمالي)1.63s
Puzzle Solving: 6.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.37sزمن الاستجابة (الحد الأقصى)2.23sزمن الاستجابة (الإجمالي)4.12s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.54sزمن الاستجابة (الحد الأقصى)3.54sزمن الاستجابة (الإجمالي)3.54s
إجمالي الاختبارات: 16الاختبارات الخاطئة: 11معدل النجاح لكل محاولة: 60.4%اختبارات غير مستقرة: 9…رموز الإخراج: 107,044رموز الاستدلال: 206,190زمن الاستجابة: المتوسط 43.03s · الإجمالي 387.25s · الحد الأقصى 237.27s
إجابة خاطئة: 5لم يتبع التعليمات: 3انتهت المهلة: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 9.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)32.42sزمن الاستجابة (الحد الأقصى)32.42sزمن الاستجابة (الإجمالي)32.42s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.invalid tool call: 1زمن الاستجابة (المتوسط)60.39sزمن الاستجابة (الحد الأقصى)60.39sزمن الاستجابة (الإجمالي)60.39s
Data parsing and extraction: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)7.48sزمن الاستجابة (الحد الأقصى)7.48sزمن الاستجابة (الإجمالي)7.48s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2انتهت المهلة: 1زمن الاستجابة (المتوسط)237.27sزمن الاستجابة (الحد الأقصى)237.27sزمن الاستجابة (الإجمالي)237.27s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)6.63sزمن الاستجابة (الحد الأقصى)6.63sزمن الاستجابة (الإجمالي)6.63s
Instructions following: 8.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.64sزمن الاستجابة (الحد الأقصى)4.64sزمن الاستجابة (الإجمالي)4.64s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)11.54sزمن الاستجابة (الحد الأقصى)17.37sزمن الاستجابة (الإجمالي)23.08s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.35sزمن الاستجابة (الحد الأقصى)15.35sزمن الاستجابة (الإجمالي)15.35s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)3.15sزمن الاستجابة (الحد الأقصى)8.91sزمن الاستجابة (الإجمالي)50.46s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 11معدل النجاح لكل محاولة: 33.3%اختبارات غير مستقرة: 1…رموز الإخراج: 1,837رموز الاستدلال: 0زمن الاستجابة: المتوسط 3.15s · الإجمالي 50.46s · الحد الأقصى 8.91s
إجابة خاطئة: 9لم يتبع التعليمات: 2
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)3.59sزمن الاستجابة (الحد الأقصى)8.17sزمن الاستجابة (الإجمالي)10.78s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)8.91sزمن الاستجابة (الحد الأقصى)8.91sزمن الاستجابة (الإجمالي)8.91s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.26sزمن الاستجابة (الحد الأقصى)4.66sزمن الاستجابة (الإجمالي)6.52s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)877msزمن الاستجابة (الحد الأقصى)894msزمن الاستجابة (الإجمالي)2.63s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.86sزمن الاستجابة (الحد الأقصى)2.86sزمن الاستجابة (الإجمالي)2.86s
Instructions following: 3.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.09sزمن الاستجابة (الحد الأقصى)1.23sزمن الاستجابة (الإجمالي)2.19s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)3.30sزمن الاستجابة (الحد الأقصى)4.81sزمن الاستجابة (الإجمالي)9.91s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.67sزمن الاستجابة (الحد الأقصى)6.67sزمن الاستجابة (الإجمالي)6.67s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 11زمن الاستجابة (المتوسط)11.91sزمن الاستجابة (الحد الأقصى)42.13sزمن الاستجابة (الإجمالي)107.16s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 11معدل النجاح لكل محاولة: 39.6%اختبارات غير مستقرة: 3…رموز الإخراج: 2,000رموز الاستدلال: 0زمن الاستجابة: المتوسط 11.91s · الإجمالي 107.16s · الحد الأقصى 42.13s
إجابة خاطئة: 11
Anti-AI Tricks: 2.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)11.38sزمن الاستجابة (الحد الأقصى)11.38sزمن الاستجابة (الإجمالي)11.38s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)19.16sزمن الاستجابة (الحد الأقصى)19.16sزمن الاستجابة (الإجمالي)19.16s
Data parsing and extraction: 5.4يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)42.13sزمن الاستجابة (الحد الأقصى)42.13sزمن الاستجابة (الإجمالي)42.13s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)4.38sزمن الاستجابة (الحد الأقصى)4.38sزمن الاستجابة (الإجمالي)4.38s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.00sزمن الاستجابة (الحد الأقصى)4.00sزمن الاستجابة (الإجمالي)4.00s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.67sزمن الاستجابة (الحد الأقصى)2.67sزمن الاستجابة (الإجمالي)2.67s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)4.73sزمن الاستجابة (الحد الأقصى)7.81sزمن الاستجابة (الإجمالي)9.45s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)13.99sزمن الاستجابة (الحد الأقصى)13.99sزمن الاستجابة (الإجمالي)13.99s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 11لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.07sزمن الاستجابة (الحد الأقصى)7.58sزمن الاستجابة (الإجمالي)18.60s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 12معدل النجاح لكل محاولة: 25.0%اختبارات غير مستقرة: 0…رموز الإخراج: 1,594رموز الاستدلال: 0زمن الاستجابة: المتوسط 2.07s · الإجمالي 18.60s · الحد الأقصى 7.58s
إجابة خاطئة: 11لم يتبع التعليمات: 1
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)1.83sزمن الاستجابة (الحد الأقصى)1.83sزمن الاستجابة (الإجمالي)1.83s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.58sزمن الاستجابة (الحد الأقصى)7.58sزمن الاستجابة (الإجمالي)7.58s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.27sزمن الاستجابة (الحد الأقصى)1.27sزمن الاستجابة (الإجمالي)1.27s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)637msزمن الاستجابة (الحد الأقصى)637msزمن الاستجابة (الإجمالي)637ms
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)909msزمن الاستجابة (الحد الأقصى)909msزمن الاستجابة (الإجمالي)909ms
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.27sزمن الاستجابة (الحد الأقصى)1.27sزمن الاستجابة (الإجمالي)1.27s
Puzzle Solving: 2.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.30sزمن الاستجابة (الحد الأقصى)1.54sزمن الاستجابة (الإجمالي)2.60s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.51sزمن الاستجابة (الحد الأقصى)2.51sزمن الاستجابة (الإجمالي)2.51s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 10تنسيق إضافي: 1لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)11.68sزمن الاستجابة (الحد الأقصى)45.14sزمن الاستجابة (الإجمالي)116.76s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 12معدل النجاح لكل محاولة: 25.0%اختبارات غير مستقرة: 0…رموز الإخراج: 3,026رموز الاستدلال: 0زمن الاستجابة: المتوسط 11.68s · الإجمالي 116.76s · الحد الأقصى 45.14s
إجابة خاطئة: 10تنسيق إضافي: 1لم يتبع التعليمات: 1
Anti-AI Tricks: 2.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 1لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.39sزمن الاستجابة (الحد الأقصى)4.39sزمن الاستجابة (الإجمالي)4.39s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)45.14sزمن الاستجابة (الحد الأقصى)45.14sزمن الاستجابة (الإجمالي)45.14s
Data parsing and extraction: 5.4يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.32sزمن الاستجابة (الحد الأقصى)1.32sزمن الاستجابة (الإجمالي)1.32s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)962msزمن الاستجابة (الحد الأقصى)962msزمن الاستجابة (الإجمالي)962ms
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.34sزمن الاستجابة (الحد الأقصى)1.34sزمن الاستجابة (الإجمالي)1.34s
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)7.71sزمن الاستجابة (الحد الأقصى)14.65sزمن الاستجابة (الإجمالي)15.42s
Puzzle Solving: 1.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)22.86sزمن الاستجابة (الحد الأقصى)42.58sزمن الاستجابة (الإجمالي)45.73s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.47sزمن الاستجابة (الحد الأقصى)2.47sزمن الاستجابة (الإجمالي)2.47s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 2invalid tool call: 1زمن الاستجابة (المتوسط)2.99sزمن الاستجابة (الحد الأقصى)7.05sزمن الاستجابة (الإجمالي)26.90s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 12معدل النجاح لكل محاولة: 35.4%اختبارات غير مستقرة: 3…رموز الإخراج: 1,855رموز الاستدلال: 0زمن الاستجابة: المتوسط 2.99s · الإجمالي 26.90s · الحد الأقصى 7.05s
إجابة خاطئة: 9لم يتبع التعليمات: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)6.59sزمن الاستجابة (الحد الأقصى)6.59sزمن الاستجابة (الإجمالي)6.59s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.invalid tool call: 1زمن الاستجابة (المتوسط)3.22sزمن الاستجابة (الحد الأقصى)3.22sزمن الاستجابة (الإجمالي)3.22s
Data parsing and extraction: 5.4يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.82sزمن الاستجابة (الحد الأقصى)4.82sزمن الاستجابة (الإجمالي)4.82s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)744msزمن الاستجابة (الحد الأقصى)744msزمن الاستجابة (الإجمالي)744ms
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.59sزمن الاستجابة (الحد الأقصى)1.59sزمن الاستجابة (الإجمالي)1.59s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)888msزمن الاستجابة (الحد الأقصى)888msزمن الاستجابة (الإجمالي)888ms
Puzzle Solving: 3.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.00sزمن الاستجابة (الحد الأقصى)1.12sزمن الاستجابة (الإجمالي)2.00s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.05sزمن الاستجابة (الحد الأقصى)7.05sزمن الاستجابة (الإجمالي)7.05s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 11لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)596msزمن الاستجابة (الحد الأقصى)1.27sزمن الاستجابة (الإجمالي)9.54s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 12معدل النجاح لكل محاولة: 31.3%اختبارات غير مستقرة: 2…رموز الإخراج: 1,303رموز الاستدلال: 0زمن الاستجابة: المتوسط 596ms · الإجمالي 9.54s · الحد الأقصى 1.27s
إجابة خاطئة: 11لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)466msزمن الاستجابة (الحد الأقصى)716msزمن الاستجابة (الإجمالي)1.40s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)606msزمن الاستجابة (الحد الأقصى)606msزمن الاستجابة (الإجمالي)606ms
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)667msزمن الاستجابة (الحد الأقصى)819msزمن الاستجابة (الإجمالي)1.33s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)534msزمن الاستجابة (الحد الأقصى)733msزمن الاستجابة (الإجمالي)1.60s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)628msزمن الاستجابة (الحد الأقصى)628msزمن الاستجابة (الإجمالي)628ms
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)551msزمن الاستجابة (الحد الأقصى)622msزمن الاستجابة (الإجمالي)1.10s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)533msزمن الاستجابة (الحد الأقصى)637msزمن الاستجابة (الإجمالي)1.60s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.27sزمن الاستجابة (الحد الأقصى)1.27sزمن الاستجابة (الإجمالي)1.27s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 7لم يتبع التعليمات: 2لا توجد إجابة: 2invalid tool call: 1زمن الاستجابة (المتوسط)36.84sزمن الاستجابة (الحد الأقصى)174.55sزمن الاستجابة (الإجمالي)331.58s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 12معدل النجاح لكل محاولة: 41.7%اختبارات غير مستقرة: 7…رموز الإخراج: 38,682رموز الاستدلال: 64,952زمن الاستجابة: المتوسط 36.84s · الإجمالي 331.58s · الحد الأقصى 174.55s
إجابة خاطئة: 7لم يتبع التعليمات: 2لا توجد إجابة: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)27.09sزمن الاستجابة (الحد الأقصى)27.09sزمن الاستجابة (الإجمالي)27.09s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.invalid tool call: 1زمن الاستجابة (المتوسط)65.57sزمن الاستجابة (الحد الأقصى)65.57sزمن الاستجابة (الإجمالي)65.57s
Data parsing and extraction: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)1.51sزمن الاستجابة (الحد الأقصى)1.51sزمن الاستجابة (الإجمالي)1.51s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لا توجد إجابة: 1زمن الاستجابة (المتوسط)174.55sزمن الاستجابة (الحد الأقصى)174.55sزمن الاستجابة (الإجمالي)174.55s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)18.14sزمن الاستجابة (الحد الأقصى)18.14sزمن الاستجابة (الإجمالي)18.14s
Instructions following: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.97sزمن الاستجابة (الحد الأقصى)2.97sزمن الاستجابة (الإجمالي)2.97s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)12.90sزمن الاستجابة (الحد الأقصى)22.33sزمن الاستجابة (الإجمالي)25.80s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.95sزمن الاستجابة (الحد الأقصى)15.95sزمن الاستجابة (الإجمالي)15.95s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 8لم يتبع التعليمات: 5زمن الاستجابة (المتوسط)12.53sزمن الاستجابة (الحد الأقصى)81.80sزمن الاستجابة (الإجمالي)125.32s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 13معدل النجاح لكل محاولة: 27.1%اختبارات غير مستقرة: 2…رموز الإخراج: 2,935رموز الاستدلال: 0زمن الاستجابة: المتوسط 12.53s · الإجمالي 125.32s · الحد الأقصى 81.80s
إجابة خاطئة: 8لم يتبع التعليمات: 5
Anti-AI Tricks: 1.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)15.28sزمن الاستجابة (الحد الأقصى)15.28sزمن الاستجابة (الإجمالي)15.28s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.28sزمن الاستجابة (الحد الأقصى)4.28sزمن الاستجابة (الإجمالي)4.28s
Data parsing and extraction: 5.4يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)81.80sزمن الاستجابة (الحد الأقصى)81.80sزمن الاستجابة (الإجمالي)81.80s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)638msزمن الاستجابة (الحد الأقصى)638msزمن الاستجابة (الإجمالي)638ms
General Intelligence: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.39sزمن الاستجابة (الحد الأقصى)1.39sزمن الاستجابة (الإجمالي)1.39s
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.34sزمن الاستجابة (الحد الأقصى)13.67sزمن الاستجابة (الإجمالي)14.68s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.30sزمن الاستجابة (الحد الأقصى)3.80sزمن الاستجابة (الإجمالي)4.61s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.64sزمن الاستجابة (الحد الأقصى)2.64sزمن الاستجابة (الإجمالي)2.64s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 11لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)1.90sزمن الاستجابة (الحد الأقصى)5.51sزمن الاستجابة (الإجمالي)17.14s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 13معدل النجاح لكل محاولة: 25.0%اختبارات غير مستقرة: 2…رموز الإخراج: 1,148رموز الاستدلال: 0زمن الاستجابة: المتوسط 1.90s · الإجمالي 17.14s · الحد الأقصى 5.51s
إجابة خاطئة: 11لم يتبع التعليمات: 2
Anti-AI Tricks: 1.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.73sزمن الاستجابة (الحد الأقصى)1.73sزمن الاستجابة (الإجمالي)1.73s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.33sزمن الاستجابة (الحد الأقصى)3.33sزمن الاستجابة (الإجمالي)3.33s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)943msزمن الاستجابة (الحد الأقصى)943msزمن الاستجابة (الإجمالي)943ms
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)1.06sزمن الاستجابة (الحد الأقصى)1.06sزمن الاستجابة (الإجمالي)1.06s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.08sزمن الاستجابة (الحد الأقصى)1.08sزمن الاستجابة (الإجمالي)1.08s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)923msزمن الاستجابة (الحد الأقصى)923msزمن الاستجابة (الإجمالي)923ms
Puzzle Solving: 1.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.28sزمن الاستجابة (الحد الأقصى)1.36sزمن الاستجابة (الإجمالي)2.56s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)5.51sزمن الاستجابة (الحد الأقصى)5.51sزمن الاستجابة (الإجمالي)5.51s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 10خطأ API: 1تنسيق إضافي: 1لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.97sزمن الاستجابة (الحد الأقصى)19.68sزمن الاستجابة (الإجمالي)35.60s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 13معدل النجاح لكل محاولة: 29.2%اختبارات غير مستقرة: 4…رموز الإخراج: 67,790رموز الاستدلال: 0زمن الاستجابة: المتوسط 2.97s · الإجمالي 35.60s · الحد الأقصى 19.68s
إجابة خاطئة: 10خطأ API: 1تنسيق إضافي: 1لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.36sزمن الاستجابة (الحد الأقصى)2.73sزمن الاستجابة (الإجمالي)4.07s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.87sزمن الاستجابة (الحد الأقصى)2.87sزمن الاستجابة (الإجمالي)2.87s
Data parsing and extraction: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1تنسيق إضافي: 1زمن الاستجابة (المتوسط)19.68sزمن الاستجابة (الحد الأقصى)19.68sزمن الاستجابة (الإجمالي)19.68s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)564msزمن الاستجابة (الحد الأقصى)564msزمن الاستجابة (الإجمالي)564ms
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.67sزمن الاستجابة (الحد الأقصى)1.67sزمن الاستجابة (الإجمالي)1.67s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)857msزمن الاستجابة (الحد الأقصى)955msزمن الاستجابة (الإجمالي)1.71s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.38sزمن الاستجابة (الحد الأقصى)1.74sزمن الاستجابة (الإجمالي)2.75s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.28sزمن الاستجابة (الحد الأقصى)2.28sزمن الاستجابة (الإجمالي)2.28s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9خطأ API: 4لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)811msزمن الاستجابة (الحد الأقصى)2.88sزمن الاستجابة (الإجمالي)11.35s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 15معدل النجاح لكل محاولة: 14.6%اختبارات غير مستقرة: 2…رموز الإخراج: 1,185رموز الاستدلال: 0زمن الاستجابة: المتوسط 811ms · الإجمالي 11.35s · الحد الأقصى 2.88s
إجابة خاطئة: 9خطأ API: 4لم يتبع التعليمات: 2
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)471msزمن الاستجابة (الحد الأقصى)872msزمن الاستجابة (الإجمالي)1.41s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms
Data parsing and extraction: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)714msزمن الاستجابة (الحد الأقصى)987msزمن الاستجابة (الإجمالي)1.43s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)287msزمن الاستجابة (الحد الأقصى)334msزمن الاستجابة (الإجمالي)860ms
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)395msزمن الاستجابة (الحد الأقصى)395msزمن الاستجابة (الإجمالي)395ms
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)1.09sزمن الاستجابة (الحد الأقصى)1.90sزمن الاستجابة (الإجمالي)2.18s
Puzzle Solving: 3.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.69sزمن الاستجابة (الحد الأقصى)2.88sزمن الاستجابة (الإجمالي)5.08s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms