تتبّع أفضل نماذج الذكاء الاصطناعي المتقدمة (SOTA) عبر لوحة AI BENCHY — طريقة سهلة لمعرفة النماذج المتصدرة الآن في الدرجة وجودة الاستدلال والموثوقية والقيمة. الترتيب حسب: التكلفة لكل نتيجة ↑.
تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06النماذج التي تم تقييمها: 55
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 3إجابة خاطئة: 3زمن الاستجابة (المتوسط)29.10sزمن الاستجابة (الحد الأقصى)170.45sزمن الاستجابة (الإجمالي)290.96s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 68.8%اختبارات غير مستقرة: 2…رموز الإخراج: 71,452رموز الاستدلال: 155,147زمن الاستجابة: المتوسط 29.10s · الإجمالي 290.96s · الحد الأقصى 170.45s
لم يتبع التعليمات: 3إجابة خاطئة: 3
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)18.54sزمن الاستجابة (الحد الأقصى)32.30sزمن الاستجابة (الإجمالي)37.07s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)29.57sزمن الاستجابة (الحد الأقصى)29.57sزمن الاستجابة (الإجمالي)29.57s
Data parsing and extraction: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.01sزمن الاستجابة (الحد الأقصى)15.01sزمن الاستجابة (الإجمالي)15.01s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)170.45sزمن الاستجابة (الحد الأقصى)170.45sزمن الاستجابة (الإجمالي)170.45s
General Intelligence: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)6.54sزمن الاستجابة (الحد الأقصى)6.54sزمن الاستجابة (الإجمالي)6.54s
Instructions following: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.98sزمن الاستجابة (الحد الأقصى)4.98sزمن الاستجابة (الإجمالي)4.98s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.72sزمن الاستجابة (الحد الأقصى)10.60sزمن الاستجابة (الإجمالي)15.44s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.91sزمن الاستجابة (الحد الأقصى)11.91sزمن الاستجابة (الإجمالي)11.91s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)3.15sزمن الاستجابة (الحد الأقصى)8.91sزمن الاستجابة (الإجمالي)50.46s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 11معدل النجاح لكل محاولة: 33.3%اختبارات غير مستقرة: 1…رموز الإخراج: 1,837رموز الاستدلال: 0زمن الاستجابة: المتوسط 3.15s · الإجمالي 50.46s · الحد الأقصى 8.91s
إجابة خاطئة: 9لم يتبع التعليمات: 2
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)3.59sزمن الاستجابة (الحد الأقصى)8.17sزمن الاستجابة (الإجمالي)10.78s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)8.91sزمن الاستجابة (الحد الأقصى)8.91sزمن الاستجابة (الإجمالي)8.91s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.26sزمن الاستجابة (الحد الأقصى)4.66sزمن الاستجابة (الإجمالي)6.52s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)877msزمن الاستجابة (الحد الأقصى)894msزمن الاستجابة (الإجمالي)2.63s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.86sزمن الاستجابة (الحد الأقصى)2.86sزمن الاستجابة (الإجمالي)2.86s
Instructions following: 3.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.09sزمن الاستجابة (الحد الأقصى)1.23sزمن الاستجابة (الإجمالي)2.19s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)3.30sزمن الاستجابة (الحد الأقصى)4.81sزمن الاستجابة (الإجمالي)9.91s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.67sزمن الاستجابة (الحد الأقصى)6.67sزمن الاستجابة (الإجمالي)6.67s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9خطأ API: 4لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)811msزمن الاستجابة (الحد الأقصى)2.88sزمن الاستجابة (الإجمالي)11.35s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 15معدل النجاح لكل محاولة: 14.6%اختبارات غير مستقرة: 2…رموز الإخراج: 1,185رموز الاستدلال: 0زمن الاستجابة: المتوسط 811ms · الإجمالي 11.35s · الحد الأقصى 2.88s
إجابة خاطئة: 9خطأ API: 4لم يتبع التعليمات: 2
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)471msزمن الاستجابة (الحد الأقصى)872msزمن الاستجابة (الإجمالي)1.41s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms
Data parsing and extraction: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)714msزمن الاستجابة (الحد الأقصى)987msزمن الاستجابة (الإجمالي)1.43s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)287msزمن الاستجابة (الحد الأقصى)334msزمن الاستجابة (الإجمالي)860ms
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)395msزمن الاستجابة (الحد الأقصى)395msزمن الاستجابة (الإجمالي)395ms
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)1.09sزمن الاستجابة (الحد الأقصى)1.90sزمن الاستجابة (الإجمالي)2.18s
Puzzle Solving: 3.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.69sزمن الاستجابة (الحد الأقصى)2.88sزمن الاستجابة (الإجمالي)5.08s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 2invalid tool call: 1زمن الاستجابة (المتوسط)2.99sزمن الاستجابة (الحد الأقصى)7.05sزمن الاستجابة (الإجمالي)26.90s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 12معدل النجاح لكل محاولة: 35.4%اختبارات غير مستقرة: 3…رموز الإخراج: 1,855رموز الاستدلال: 0زمن الاستجابة: المتوسط 2.99s · الإجمالي 26.90s · الحد الأقصى 7.05s
إجابة خاطئة: 9لم يتبع التعليمات: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)6.59sزمن الاستجابة (الحد الأقصى)6.59sزمن الاستجابة (الإجمالي)6.59s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.invalid tool call: 1زمن الاستجابة (المتوسط)3.22sزمن الاستجابة (الحد الأقصى)3.22sزمن الاستجابة (الإجمالي)3.22s
Data parsing and extraction: 5.4يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.82sزمن الاستجابة (الحد الأقصى)4.82sزمن الاستجابة (الإجمالي)4.82s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)744msزمن الاستجابة (الحد الأقصى)744msزمن الاستجابة (الإجمالي)744ms
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.59sزمن الاستجابة (الحد الأقصى)1.59sزمن الاستجابة (الإجمالي)1.59s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)888msزمن الاستجابة (الحد الأقصى)888msزمن الاستجابة (الإجمالي)888ms
Puzzle Solving: 3.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.00sزمن الاستجابة (الحد الأقصى)1.12sزمن الاستجابة (الإجمالي)2.00s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.05sزمن الاستجابة (الحد الأقصى)7.05sزمن الاستجابة (الإجمالي)7.05s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 8لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.54sزمن الاستجابة (الحد الأقصى)13.73sزمن الاستجابة (الإجمالي)56.70s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 9معدل النجاح لكل محاولة: 45.8%اختبارات غير مستقرة: 1…رموز الإخراج: 3,774رموز الاستدلال: 0زمن الاستجابة: المتوسط 3.54s · الإجمالي 56.70s · الحد الأقصى 13.73s
إجابة خاطئة: 8لم يتبع التعليمات: 1
Anti-AI Tricks: 2.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.62sزمن الاستجابة (الحد الأقصى)3.89sزمن الاستجابة (الإجمالي)4.85s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)6.22sزمن الاستجابة (الحد الأقصى)6.22sزمن الاستجابة (الإجمالي)6.22s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.57sزمن الاستجابة (الحد الأقصى)1.83sزمن الاستجابة (الإجمالي)3.14s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)905msزمن الاستجابة (الحد الأقصى)1.10sزمن الاستجابة (الإجمالي)2.71s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)803msزمن الاستجابة (الحد الأقصى)803msزمن الاستجابة (الإجمالي)803ms
Instructions following: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)8.81sزمن الاستجابة (الحد الأقصى)13.73sزمن الاستجابة (الإجمالي)17.61s
Puzzle Solving: 1.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)5.90sزمن الاستجابة (الحد الأقصى)12.19sزمن الاستجابة (الإجمالي)17.69s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.67sزمن الاستجابة (الحد الأقصى)3.67sزمن الاستجابة (الإجمالي)3.67s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 11لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.07sزمن الاستجابة (الحد الأقصى)7.58sزمن الاستجابة (الإجمالي)18.60s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 12معدل النجاح لكل محاولة: 25.0%اختبارات غير مستقرة: 0…رموز الإخراج: 1,594رموز الاستدلال: 0زمن الاستجابة: المتوسط 2.07s · الإجمالي 18.60s · الحد الأقصى 7.58s
إجابة خاطئة: 11لم يتبع التعليمات: 1
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)1.83sزمن الاستجابة (الحد الأقصى)1.83sزمن الاستجابة (الإجمالي)1.83s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.58sزمن الاستجابة (الحد الأقصى)7.58sزمن الاستجابة (الإجمالي)7.58s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.27sزمن الاستجابة (الحد الأقصى)1.27sزمن الاستجابة (الإجمالي)1.27s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)637msزمن الاستجابة (الحد الأقصى)637msزمن الاستجابة (الإجمالي)637ms
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)909msزمن الاستجابة (الحد الأقصى)909msزمن الاستجابة (الإجمالي)909ms
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.27sزمن الاستجابة (الحد الأقصى)1.27sزمن الاستجابة (الإجمالي)1.27s
Puzzle Solving: 2.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.30sزمن الاستجابة (الحد الأقصى)1.54sزمن الاستجابة (الإجمالي)2.60s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.51sزمن الاستجابة (الحد الأقصى)2.51sزمن الاستجابة (الإجمالي)2.51s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 5لم يتبع التعليمات: 4زمن الاستجابة (المتوسط)16.65sزمن الاستجابة (الحد الأقصى)50.92sزمن الاستجابة (الإجمالي)149.88s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 9معدل النجاح لكل محاولة: 54.2%اختبارات غير مستقرة: 5…رموز الإخراج: 13,210رموز الاستدلال: 34,230زمن الاستجابة: المتوسط 16.65s · الإجمالي 149.88s · الحد الأقصى 50.92s
إجابة خاطئة: 5لم يتبع التعليمات: 4
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)19.76sزمن الاستجابة (الحد الأقصى)19.76sزمن الاستجابة (الإجمالي)19.76s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)31.18sزمن الاستجابة (الحد الأقصى)31.18sزمن الاستجابة (الإجمالي)31.18s
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.98sزمن الاستجابة (الحد الأقصى)1.98sزمن الاستجابة (الإجمالي)1.98s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)50.92sزمن الاستجابة (الحد الأقصى)50.92sزمن الاستجابة (الإجمالي)50.92s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)7.90sزمن الاستجابة (الحد الأقصى)7.90sزمن الاستجابة (الإجمالي)7.90s
Instructions following: 9.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.63sزمن الاستجابة (الحد الأقصى)7.63sزمن الاستجابة (الإجمالي)7.63s
Puzzle Solving: 1.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)11.80sزمن الاستجابة (الحد الأقصى)12.60sزمن الاستجابة (الإجمالي)23.61s
Tool Calling: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.91sزمن الاستجابة (الحد الأقصى)6.91sزمن الاستجابة (الإجمالي)6.91s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)1.33sزمن الاستجابة (الحد الأقصى)3.39sزمن الاستجابة (الإجمالي)21.27s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 66.7%اختبارات غير مستقرة: 1…رموز الإخراج: 4,715رموز الاستدلال: 0زمن الاستجابة: المتوسط 1.33s · الإجمالي 21.27s · الحد الأقصى 3.39s
إجابة خاطئة: 4لم يتبع التعليمات: 2
Anti-AI Tricks: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.16sزمن الاستجابة (الحد الأقصى)1.47sزمن الاستجابة (الإجمالي)3.49s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.20sزمن الاستجابة (الحد الأقصى)3.20sزمن الاستجابة (الإجمالي)3.20s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.22sزمن الاستجابة (الحد الأقصى)1.33sزمن الاستجابة (الإجمالي)2.44s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)942msزمن الاستجابة (الحد الأقصى)1.12sزمن الاستجابة (الإجمالي)2.83s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)741msزمن الاستجابة (الحد الأقصى)741msزمن الاستجابة (الإجمالي)741ms
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.13sزمن الاستجابة (الحد الأقصى)1.14sزمن الاستجابة (الإجمالي)2.27s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)972msزمن الاستجابة (الحد الأقصى)1.13sزمن الاستجابة (الإجمالي)2.92s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.39sزمن الاستجابة (الحد الأقصى)3.39sزمن الاستجابة (الإجمالي)3.39s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 11لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)596msزمن الاستجابة (الحد الأقصى)1.27sزمن الاستجابة (الإجمالي)9.54s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 12معدل النجاح لكل محاولة: 31.3%اختبارات غير مستقرة: 2…رموز الإخراج: 1,303رموز الاستدلال: 0زمن الاستجابة: المتوسط 596ms · الإجمالي 9.54s · الحد الأقصى 1.27s
إجابة خاطئة: 11لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)466msزمن الاستجابة (الحد الأقصى)716msزمن الاستجابة (الإجمالي)1.40s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)606msزمن الاستجابة (الحد الأقصى)606msزمن الاستجابة (الإجمالي)606ms
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)667msزمن الاستجابة (الحد الأقصى)819msزمن الاستجابة (الإجمالي)1.33s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)534msزمن الاستجابة (الحد الأقصى)733msزمن الاستجابة (الإجمالي)1.60s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)628msزمن الاستجابة (الحد الأقصى)628msزمن الاستجابة (الإجمالي)628ms
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)551msزمن الاستجابة (الحد الأقصى)622msزمن الاستجابة (الإجمالي)1.10s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)533msزمن الاستجابة (الحد الأقصى)637msزمن الاستجابة (الإجمالي)1.60s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.27sزمن الاستجابة (الحد الأقصى)1.27sزمن الاستجابة (الإجمالي)1.27s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 5زمن الاستجابة (المتوسط)1.75sزمن الاستجابة (الحد الأقصى)3.56sزمن الاستجابة (الإجمالي)15.71s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 75.0%اختبارات غير مستقرة: 2…رموز الإخراج: 1,411رموز الاستدلال: 0زمن الاستجابة: المتوسط 1.75s · الإجمالي 15.71s · الحد الأقصى 3.56s
إجابة خاطئة: 5
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.59sزمن الاستجابة (الحد الأقصى)1.59sزمن الاستجابة (الإجمالي)1.59s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.56sزمن الاستجابة (الحد الأقصى)3.56sزمن الاستجابة (الإجمالي)3.56s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.41sزمن الاستجابة (الحد الأقصى)1.41sزمن الاستجابة (الإجمالي)1.41s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)963msزمن الاستجابة (الحد الأقصى)963msزمن الاستجابة (الإجمالي)963ms
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.13sزمن الاستجابة (الحد الأقصى)1.13sزمن الاستجابة (الإجمالي)1.13s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.58sزمن الاستجابة (الحد الأقصى)1.58sزمن الاستجابة (الإجمالي)1.58s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.06sزمن الاستجابة (الحد الأقصى)1.06sزمن الاستجابة (الإجمالي)2.12s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.35sزمن الاستجابة (الحد الأقصى)3.35sزمن الاستجابة (الإجمالي)3.35s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 7زمن الاستجابة (المتوسط)2.65sزمن الاستجابة (الحد الأقصى)6.65sزمن الاستجابة (الإجمالي)26.52s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 7معدل النجاح لكل محاولة: 58.3%اختبارات غير مستقرة: 1…رموز الإخراج: 2,015رموز الاستدلال: 0زمن الاستجابة: المتوسط 2.65s · الإجمالي 26.52s · الحد الأقصى 6.65s
إجابة خاطئة: 7
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)2.74sزمن الاستجابة (الحد الأقصى)2.74sزمن الاستجابة (الإجمالي)2.74s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)6.65sزمن الاستجابة (الحد الأقصى)6.65sزمن الاستجابة (الإجمالي)6.65s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.89sزمن الاستجابة (الحد الأقصى)1.89sزمن الاستجابة (الإجمالي)1.89s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)1.17sزمن الاستجابة (الحد الأقصى)1.44sزمن الاستجابة (الإجمالي)2.33s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.26sزمن الاستجابة (الحد الأقصى)2.26sزمن الاستجابة (الإجمالي)2.26s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.67sزمن الاستجابة (الحد الأقصى)1.67sزمن الاستجابة (الإجمالي)1.67s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.82sزمن الاستجابة (الحد الأقصى)3.52sزمن الاستجابة (الإجمالي)5.65s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.33sزمن الاستجابة (الحد الأقصى)3.33sزمن الاستجابة (الإجمالي)3.33s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 10تنسيق إضافي: 1لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)11.68sزمن الاستجابة (الحد الأقصى)45.14sزمن الاستجابة (الإجمالي)116.76s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 12معدل النجاح لكل محاولة: 25.0%اختبارات غير مستقرة: 0…رموز الإخراج: 3,026رموز الاستدلال: 0زمن الاستجابة: المتوسط 11.68s · الإجمالي 116.76s · الحد الأقصى 45.14s
إجابة خاطئة: 10تنسيق إضافي: 1لم يتبع التعليمات: 1
Anti-AI Tricks: 2.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 1لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.39sزمن الاستجابة (الحد الأقصى)4.39sزمن الاستجابة (الإجمالي)4.39s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)45.14sزمن الاستجابة (الحد الأقصى)45.14sزمن الاستجابة (الإجمالي)45.14s
Data parsing and extraction: 5.4يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.32sزمن الاستجابة (الحد الأقصى)1.32sزمن الاستجابة (الإجمالي)1.32s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)962msزمن الاستجابة (الحد الأقصى)962msزمن الاستجابة (الإجمالي)962ms
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.34sزمن الاستجابة (الحد الأقصى)1.34sزمن الاستجابة (الإجمالي)1.34s
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)7.71sزمن الاستجابة (الحد الأقصى)14.65sزمن الاستجابة (الإجمالي)15.42s
Puzzle Solving: 1.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)22.86sزمن الاستجابة (الحد الأقصى)42.58sزمن الاستجابة (الإجمالي)45.73s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.47sزمن الاستجابة (الحد الأقصى)2.47sزمن الاستجابة (الإجمالي)2.47s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.36sزمن الاستجابة (الحد الأقصى)11.91sزمن الاستجابة (الإجمالي)53.84s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 68.8%اختبارات غير مستقرة: 0…رموز الإخراج: 1,611رموز الاستدلال: 7,272زمن الاستجابة: المتوسط 3.36s · الإجمالي 53.84s · الحد الأقصى 11.91s
إجابة خاطئة: 4لم يتبع التعليمات: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.18sزمن الاستجابة (الحد الأقصى)3.18sزمن الاستجابة (الإجمالي)6.53s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)11.91sزمن الاستجابة (الحد الأقصى)11.91sزمن الاستجابة (الإجمالي)11.91s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.00sزمن الاستجابة (الحد الأقصى)3.74sزمن الاستجابة (الإجمالي)5.99s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)2.36sزمن الاستجابة (الحد الأقصى)3.51sزمن الاستجابة (الإجمالي)7.07s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.54sزمن الاستجابة (الحد الأقصى)1.54sزمن الاستجابة (الإجمالي)1.54s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.49sزمن الاستجابة (الحد الأقصى)1.66sزمن الاستجابة (الإجمالي)2.99s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.76sزمن الاستجابة (الحد الأقصى)5.08sزمن الاستجابة (الإجمالي)8.27s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.54sزمن الاستجابة (الحد الأقصى)9.54sزمن الاستجابة (الإجمالي)9.54s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)923msزمن الاستجابة (الحد الأقصى)4.39sزمن الاستجابة (الإجمالي)14.78s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 10معدل النجاح لكل محاولة: 43.8%اختبارات غير مستقرة: 2…رموز الإخراج: 1,270رموز الاستدلال: 0زمن الاستجابة: المتوسط 923ms · الإجمالي 14.78s · الحد الأقصى 4.39s
إجابة خاطئة: 9لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)668msزمن الاستجابة (الحد الأقصى)844msزمن الاستجابة (الإجمالي)2.01s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.39sزمن الاستجابة (الحد الأقصى)4.39sزمن الاستجابة (الإجمالي)4.39s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)652msزمن الاستجابة (الحد الأقصى)660msزمن الاستجابة (الإجمالي)1.30s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)495msزمن الاستجابة (الحد الأقصى)642msزمن الاستجابة (الإجمالي)1.49s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)615msزمن الاستجابة (الحد الأقصى)615msزمن الاستجابة (الإجمالي)615ms
Instructions following: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)672msزمن الاستجابة (الحد الأقصى)785msزمن الاستجابة (الإجمالي)1.34s
Puzzle Solving: 4.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)576msزمن الاستجابة (الحد الأقصى)700msزمن الاستجابة (الإجمالي)1.73s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.91sزمن الاستجابة (الحد الأقصى)1.91sزمن الاستجابة (الإجمالي)1.91s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 7زمن الاستجابة (المتوسط)4.03sزمن الاستجابة (الحد الأقصى)11.07sزمن الاستجابة (الإجمالي)36.30s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 7معدل النجاح لكل محاولة: 56.3%اختبارات غير مستقرة: 0…رموز الإخراج: 1,548رموز الاستدلال: 0زمن الاستجابة: المتوسط 4.03s · الإجمالي 36.30s · الحد الأقصى 11.07s
إجابة خاطئة: 7
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)3.39sزمن الاستجابة (الحد الأقصى)3.39sزمن الاستجابة (الإجمالي)3.39s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.98sزمن الاستجابة (الحد الأقصى)4.98sزمن الاستجابة (الإجمالي)4.98s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.78sزمن الاستجابة (الحد الأقصى)5.78sزمن الاستجابة (الإجمالي)5.78s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)2.24sزمن الاستجابة (الحد الأقصى)2.24sزمن الاستجابة (الإجمالي)2.24s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.27sزمن الاستجابة (الحد الأقصى)3.27sزمن الاستجابة (الإجمالي)3.27s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.48sزمن الاستجابة (الحد الأقصى)1.48sزمن الاستجابة (الإجمالي)1.48s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.05sزمن الاستجابة (الحد الأقصى)2.08sزمن الاستجابة (الإجمالي)4.10s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.07sزمن الاستجابة (الحد الأقصى)11.07sزمن الاستجابة (الإجمالي)11.07s
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)8.79sزمن الاستجابة (الحد الأقصى)12.26sزمن الاستجابة (الإجمالي)26.38s
Combined: 8.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.invalid tool call: 1زمن الاستجابة (المتوسط)115.89sزمن الاستجابة (الحد الأقصى)115.89sزمن الاستجابة (الإجمالي)115.89s
Data parsing and extraction: 5.4يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)9.42sزمن الاستجابة (الحد الأقصى)16.20sزمن الاستجابة (الإجمالي)18.84s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.61sزمن الاستجابة (الحد الأقصى)1.77sزمن الاستجابة (الإجمالي)4.83s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.86sزمن الاستجابة (الحد الأقصى)2.86sزمن الاستجابة (الإجمالي)2.86s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.52sزمن الاستجابة (الحد الأقصى)1.99sزمن الاستجابة (الإجمالي)3.04s
Puzzle Solving: 7.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.37sزمن الاستجابة (الحد الأقصى)10.78sزمن الاستجابة (الإجمالي)22.10s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.85sزمن الاستجابة (الحد الأقصى)11.85sزمن الاستجابة (الإجمالي)11.85s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3لم يتبع التعليمات: 1انتهت المهلة: 1زمن الاستجابة (المتوسط)39.48sزمن الاستجابة (الحد الأقصى)93.11sزمن الاستجابة (الإجمالي)631.71s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 79.2%اختبارات غير مستقرة: 3…رموز الإخراج: 7,392رموز الاستدلال: 39,089زمن الاستجابة: المتوسط 39.48s · الإجمالي 631.71s · الحد الأقصى 93.11s
إجابة خاطئة: 3لم يتبع التعليمات: 1انتهت المهلة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)33.39sزمن الاستجابة (الحد الأقصى)44.23sزمن الاستجابة (الإجمالي)100.18s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)93.11sزمن الاستجابة (الحد الأقصى)93.11sزمن الاستجابة (الإجمالي)93.11s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)36.09sزمن الاستجابة (الحد الأقصى)39.12sزمن الاستجابة (الإجمالي)72.18s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)39.32sزمن الاستجابة (الحد الأقصى)79.03sزمن الاستجابة (الإجمالي)117.95s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)31.30sزمن الاستجابة (الحد الأقصى)31.30sزمن الاستجابة (الإجمالي)31.30s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)35.78sزمن الاستجابة (الحد الأقصى)47.30sزمن الاستجابة (الإجمالي)71.56s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)36.87sزمن الاستجابة (الحد الأقصى)59.22sزمن الاستجابة (الإجمالي)110.62s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)34.81sزمن الاستجابة (الحد الأقصى)34.81sزمن الاستجابة (الإجمالي)34.81s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 8لم يتبع التعليمات: 5زمن الاستجابة (المتوسط)12.53sزمن الاستجابة (الحد الأقصى)81.80sزمن الاستجابة (الإجمالي)125.32s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 13معدل النجاح لكل محاولة: 27.1%اختبارات غير مستقرة: 2…رموز الإخراج: 2,935رموز الاستدلال: 0زمن الاستجابة: المتوسط 12.53s · الإجمالي 125.32s · الحد الأقصى 81.80s
إجابة خاطئة: 8لم يتبع التعليمات: 5
Anti-AI Tricks: 1.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)15.28sزمن الاستجابة (الحد الأقصى)15.28sزمن الاستجابة (الإجمالي)15.28s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.28sزمن الاستجابة (الحد الأقصى)4.28sزمن الاستجابة (الإجمالي)4.28s
Data parsing and extraction: 5.4يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)81.80sزمن الاستجابة (الحد الأقصى)81.80sزمن الاستجابة (الإجمالي)81.80s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)638msزمن الاستجابة (الحد الأقصى)638msزمن الاستجابة (الإجمالي)638ms
General Intelligence: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.39sزمن الاستجابة (الحد الأقصى)1.39sزمن الاستجابة (الإجمالي)1.39s
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)7.34sزمن الاستجابة (الحد الأقصى)13.67sزمن الاستجابة (الإجمالي)14.68s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.30sزمن الاستجابة (الحد الأقصى)3.80sزمن الاستجابة (الإجمالي)4.61s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.64sزمن الاستجابة (الحد الأقصى)2.64sزمن الاستجابة (الإجمالي)2.64s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 8لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)4.10sزمن الاستجابة (الحد الأقصى)47.43sزمن الاستجابة (الإجمالي)65.62s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 10معدل النجاح لكل محاولة: 50.0%اختبارات غير مستقرة: 3…رموز الإخراج: 3,756رموز الاستدلال: 0زمن الاستجابة: المتوسط 4.10s · الإجمالي 65.62s · الحد الأقصى 47.43s
إجابة خاطئة: 8لم يتبع التعليمات: 2
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.76sزمن الاستجابة (الحد الأقصى)4.39sزمن الاستجابة (الإجمالي)5.27s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)47.43sزمن الاستجابة (الحد الأقصى)47.43sزمن الاستجابة (الإجمالي)47.43s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.16sزمن الاستجابة (الحد الأقصى)1.42sزمن الاستجابة (الإجمالي)2.33s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)485msزمن الاستجابة (الحد الأقصى)549msزمن الاستجابة (الإجمالي)1.45s
General Intelligence: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.19sزمن الاستجابة (الحد الأقصى)1.19sزمن الاستجابة (الإجمالي)1.19s
Instructions following: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)809msزمن الاستجابة (الحد الأقصى)983msزمن الاستجابة (الإجمالي)1.62s
Puzzle Solving: 1.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.34sزمن الاستجابة (الحد الأقصى)2.25sزمن الاستجابة (الإجمالي)4.03s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.30sزمن الاستجابة (الحد الأقصى)2.30sزمن الاستجابة (الإجمالي)2.30s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 11لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)1.90sزمن الاستجابة (الحد الأقصى)5.51sزمن الاستجابة (الإجمالي)17.14s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 13معدل النجاح لكل محاولة: 25.0%اختبارات غير مستقرة: 2…رموز الإخراج: 1,148رموز الاستدلال: 0زمن الاستجابة: المتوسط 1.90s · الإجمالي 17.14s · الحد الأقصى 5.51s
إجابة خاطئة: 11لم يتبع التعليمات: 2
Anti-AI Tricks: 1.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.73sزمن الاستجابة (الحد الأقصى)1.73sزمن الاستجابة (الإجمالي)1.73s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.33sزمن الاستجابة (الحد الأقصى)3.33sزمن الاستجابة (الإجمالي)3.33s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)943msزمن الاستجابة (الحد الأقصى)943msزمن الاستجابة (الإجمالي)943ms
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)1.06sزمن الاستجابة (الحد الأقصى)1.06sزمن الاستجابة (الإجمالي)1.06s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.08sزمن الاستجابة (الحد الأقصى)1.08sزمن الاستجابة (الإجمالي)1.08s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)923msزمن الاستجابة (الحد الأقصى)923msزمن الاستجابة (الإجمالي)923ms
Puzzle Solving: 1.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.28sزمن الاستجابة (الحد الأقصى)1.36sزمن الاستجابة (الإجمالي)2.56s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)5.51sزمن الاستجابة (الحد الأقصى)5.51sزمن الاستجابة (الإجمالي)5.51s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 4لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)65.09sزمن الاستجابة (الحد الأقصى)262.83sزمن الاستجابة (الإجمالي)846.14s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 68.8%اختبارات غير مستقرة: 2…رموز الإخراج: 1,965رموز الاستدلال: 58,456زمن الاستجابة: المتوسط 65.09s · الإجمالي 846.14s · الحد الأقصى 262.83s
انتهت المهلة: 4لم يتبع التعليمات: 1إجابة خاطئة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1زمن الاستجابة (المتوسط)98.99sزمن الاستجابة (الحد الأقصى)182.10sزمن الاستجابة (الإجمالي)296.96s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)262.83sزمن الاستجابة (الحد الأقصى)262.83sزمن الاستجابة (الإجمالي)262.83s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)24.27sزمن الاستجابة (الحد الأقصى)27.52sزمن الاستجابة (الإجمالي)48.54s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 3زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms
General Intelligence: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)36.65sزمن الاستجابة (الحد الأقصى)36.65sزمن الاستجابة (الإجمالي)36.65s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)17.47sزمن الاستجابة (الحد الأقصى)19.46sزمن الاستجابة (الإجمالي)34.93s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)25.85sزمن الاستجابة (الحد الأقصى)32.95sزمن الاستجابة (الإجمالي)77.55s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)88.68sزمن الاستجابة (الحد الأقصى)88.68sزمن الاستجابة (الإجمالي)88.68s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 11زمن الاستجابة (المتوسط)11.91sزمن الاستجابة (الحد الأقصى)42.13sزمن الاستجابة (الإجمالي)107.16s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 11معدل النجاح لكل محاولة: 39.6%اختبارات غير مستقرة: 3…رموز الإخراج: 2,000رموز الاستدلال: 0زمن الاستجابة: المتوسط 11.91s · الإجمالي 107.16s · الحد الأقصى 42.13s
إجابة خاطئة: 11
Anti-AI Tricks: 2.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)11.38sزمن الاستجابة (الحد الأقصى)11.38sزمن الاستجابة (الإجمالي)11.38s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)19.16sزمن الاستجابة (الحد الأقصى)19.16sزمن الاستجابة (الإجمالي)19.16s
Data parsing and extraction: 5.4يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)42.13sزمن الاستجابة (الحد الأقصى)42.13sزمن الاستجابة (الإجمالي)42.13s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)4.38sزمن الاستجابة (الحد الأقصى)4.38sزمن الاستجابة (الإجمالي)4.38s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.00sزمن الاستجابة (الحد الأقصى)4.00sزمن الاستجابة (الإجمالي)4.00s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.67sزمن الاستجابة (الحد الأقصى)2.67sزمن الاستجابة (الإجمالي)2.67s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)4.73sزمن الاستجابة (الحد الأقصى)7.81sزمن الاستجابة (الإجمالي)9.45s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)13.99sزمن الاستجابة (الحد الأقصى)13.99sزمن الاستجابة (الإجمالي)13.99s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)1.75sزمن الاستجابة (الحد الأقصى)9.39sزمن الاستجابة (الإجمالي)28.05s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 11معدل النجاح لكل محاولة: 37.5%اختبارات غير مستقرة: 2…رموز الإخراج: 3,161رموز الاستدلال: 0زمن الاستجابة: المتوسط 1.75s · الإجمالي 28.05s · الحد الأقصى 9.39s
إجابة خاطئة: 9لم يتبع التعليمات: 2
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)796msزمن الاستجابة (الحد الأقصى)1.34sزمن الاستجابة (الإجمالي)2.39s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)9.39sزمن الاستجابة (الحد الأقصى)9.39sزمن الاستجابة (الإجمالي)9.39s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.43sزمن الاستجابة (الحد الأقصى)1.45sزمن الاستجابة (الإجمالي)2.86s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)540msزمن الاستجابة (الحد الأقصى)649msزمن الاستجابة (الإجمالي)1.62s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.51sزمن الاستجابة (الحد الأقصى)2.51sزمن الاستجابة (الإجمالي)2.51s
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)815msزمن الاستجابة (الحد الأقصى)973msزمن الاستجابة (الإجمالي)1.63s
Puzzle Solving: 6.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.37sزمن الاستجابة (الحد الأقصى)2.23sزمن الاستجابة (الإجمالي)4.12s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.54sزمن الاستجابة (الحد الأقصى)3.54sزمن الاستجابة (الإجمالي)3.54s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3خطأ API: 1لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)25.33sزمن الاستجابة (الحد الأقصى)96.01sزمن الاستجابة (الإجمالي)253.33s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 72.9%اختبارات غير مستقرة: 1…رموز الإخراج: 11,613رموز الاستدلال: 106,714زمن الاستجابة: المتوسط 25.33s · الإجمالي 253.33s · الحد الأقصى 96.01s
إجابة خاطئة: 3خطأ API: 1لم يتبع التعليمات: 1
Anti-AI Tricks: 9.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)16.79sزمن الاستجابة (الحد الأقصى)20.83sزمن الاستجابة (الإجمالي)33.57s
Combined: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)75.68sزمن الاستجابة (الحد الأقصى)75.68sزمن الاستجابة (الإجمالي)75.68s
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)96.01sزمن الاستجابة (الحد الأقصى)96.01sزمن الاستجابة (الإجمالي)96.01s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.20sزمن الاستجابة (الحد الأقصى)4.20sزمن الاستجابة (الإجمالي)4.20s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.28sزمن الاستجابة (الحد الأقصى)7.37sزمن الاستجابة (الإجمالي)8.55s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.77sزمن الاستجابة (الحد الأقصى)5.26sزمن الاستجابة (الإجمالي)7.55s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)27.78sزمن الاستجابة (الحد الأقصى)27.78sزمن الاستجابة (الإجمالي)27.78s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.72sزمن الاستجابة (الحد الأقصى)46.00sزمن الاستجابة (الإجمالي)59.46s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 10معدل النجاح لكل محاولة: 39.6%اختبارات غير مستقرة: 1…رموز الإخراج: 2,679رموز الاستدلال: 0زمن الاستجابة: المتوسط 3.72s · الإجمالي 59.46s · الحد الأقصى 46.00s
إجابة خاطئة: 9لم يتبع التعليمات: 1
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)927msزمن الاستجابة (الحد الأقصى)1.38sزمن الاستجابة (الإجمالي)2.78s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)46.00sزمن الاستجابة (الحد الأقصى)46.00sزمن الاستجابة (الإجمالي)46.00s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.01sزمن الاستجابة (الحد الأقصى)1.06sزمن الاستجابة (الإجمالي)2.02s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)465msزمن الاستجابة (الحد الأقصى)492msزمن الاستجابة (الإجمالي)1.39s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.12sزمن الاستجابة (الحد الأقصى)1.12sزمن الاستجابة (الإجمالي)1.12s
Instructions following: 4.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)585msزمن الاستجابة (الحد الأقصى)715msزمن الاستجابة (الإجمالي)1.17s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)982msزمن الاستجابة (الحد الأقصى)1.36sزمن الاستجابة (الإجمالي)2.95s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.04sزمن الاستجابة (الحد الأقصى)2.04sزمن الاستجابة (الإجمالي)2.04s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.83sزمن الاستجابة (الحد الأقصى)14.93sزمن الاستجابة (الإجمالي)61.25s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 68.8%اختبارات غير مستقرة: 0…رموز الإخراج: 1,731رموز الاستدلال: 25,821زمن الاستجابة: المتوسط 3.83s · الإجمالي 61.25s · الحد الأقصى 14.93s
إجابة خاطئة: 4لم يتبع التعليمات: 1
Anti-AI Tricks: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.53sزمن الاستجابة (الحد الأقصى)3.89sزمن الاستجابة (الإجمالي)7.58s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)14.93sزمن الاستجابة (الحد الأقصى)14.93sزمن الاستجابة (الإجمالي)14.93s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.29sزمن الاستجابة (الحد الأقصى)2.31sزمن الاستجابة (الإجمالي)4.59s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)4.21sزمن الاستجابة (الحد الأقصى)5.86sزمن الاستجابة (الإجمالي)12.62s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.16sزمن الاستجابة (الحد الأقصى)3.16sزمن الاستجابة (الإجمالي)3.16s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.91sزمن الاستجابة (الحد الأقصى)1.93sزمن الاستجابة (الإجمالي)3.82s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.58sزمن الاستجابة (الحد الأقصى)4.41sزمن الاستجابة (الإجمالي)10.75s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.80sزمن الاستجابة (الحد الأقصى)3.80sزمن الاستجابة (الإجمالي)3.80s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 3إجابة خاطئة: 2لا توجد إجابة: 1انتهت المهلة: 1زمن الاستجابة (المتوسط)26.35sزمن الاستجابة (الحد الأقصى)121.79sزمن الاستجابة (الإجمالي)237.11s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 7معدل النجاح لكل محاولة: 66.7%اختبارات غير مستقرة: 4…رموز الإخراج: 1,183رموز الاستدلال: 83,875زمن الاستجابة: المتوسط 26.35s · الإجمالي 237.11s · الحد الأقصى 121.79s
لم يتبع التعليمات: 3إجابة خاطئة: 2لا توجد إجابة: 1انتهت المهلة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.65sزمن الاستجابة (الحد الأقصى)5.65sزمن الاستجابة (الإجمالي)5.65s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)37.64sزمن الاستجابة (الحد الأقصى)37.64sزمن الاستجابة (الإجمالي)37.64s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.63sزمن الاستجابة (الحد الأقصى)6.63sزمن الاستجابة (الإجمالي)6.63s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)121.79sزمن الاستجابة (الحد الأقصى)121.79sزمن الاستجابة (الإجمالي)121.79s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)16.25sزمن الاستجابة (الحد الأقصى)16.25sزمن الاستجابة (الإجمالي)16.25s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)5.30sزمن الاستجابة (الحد الأقصى)5.30sزمن الاستجابة (الإجمالي)5.30s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)8.08sزمن الاستجابة (الحد الأقصى)8.38sزمن الاستجابة (الإجمالي)16.17s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)27.71sزمن الاستجابة (الحد الأقصى)27.71sزمن الاستجابة (الإجمالي)27.71s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)6.11sزمن الاستجابة (الحد الأقصى)14.72sزمن الاستجابة (الإجمالي)97.74s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 3معدل النجاح لكل محاولة: 83.3%اختبارات غير مستقرة: 1…رموز الإخراج: 1,586رموز الاستدلال: 19,950زمن الاستجابة: المتوسط 6.11s · الإجمالي 97.74s · الحد الأقصى 14.72s
إجابة خاطئة: 3
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.50sزمن الاستجابة (الحد الأقصى)4.31sزمن الاستجابة (الإجمالي)10.49s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.27sزمن الاستجابة (الحد الأقصى)3.27sزمن الاستجابة (الإجمالي)3.27s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.40sزمن الاستجابة (الحد الأقصى)14.72sزمن الاستجابة (الإجمالي)18.80s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)8.05sزمن الاستجابة (الحد الأقصى)14.40sزمن الاستجابة (الإجمالي)24.15s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.68sزمن الاستجابة (الحد الأقصى)3.68sزمن الاستجابة (الإجمالي)3.68s
Instructions following: 9.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.02sزمن الاستجابة (الحد الأقصى)7.35sزمن الاستجابة (الإجمالي)14.03s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.11sزمن الاستجابة (الحد الأقصى)10.27sزمن الاستجابة (الإجمالي)18.32s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.99sزمن الاستجابة (الحد الأقصى)4.99sزمن الاستجابة (الإجمالي)4.99s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 5لم يتبع التعليمات: 4زمن الاستجابة (المتوسط)2.36sزمن الاستجابة (الحد الأقصى)14.63sزمن الاستجابة (الإجمالي)35.39s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 9معدل النجاح لكل محاولة: 54.2%اختبارات غير مستقرة: 3…رموز الإخراج: 3,708رموز الاستدلال: 45,921زمن الاستجابة: المتوسط 2.36s · الإجمالي 35.39s · الحد الأقصى 14.63s
إجابة خاطئة: 5لم يتبع التعليمات: 4
Anti-AI Tricks: 7.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.30sزمن الاستجابة (الحد الأقصى)2.46sزمن الاستجابة (الإجمالي)3.89s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.28sزمن الاستجابة (الحد الأقصى)3.28sزمن الاستجابة (الإجمالي)3.28s
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.11sزمن الاستجابة (الحد الأقصى)1.47sزمن الاستجابة (الإجمالي)2.21s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)6.48sزمن الاستجابة (الحد الأقصى)14.63sزمن الاستجابة (الإجمالي)19.43s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)821msزمن الاستجابة (الحد الأقصى)821msزمن الاستجابة (الإجمالي)821ms
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.07sزمن الاستجابة (الحد الأقصى)1.07sزمن الاستجابة (الإجمالي)1.07s
Puzzle Solving: 1.7يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)934msزمن الاستجابة (الحد الأقصى)1.18sزمن الاستجابة (الإجمالي)2.80s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.89sزمن الاستجابة (الحد الأقصى)1.89sزمن الاستجابة (الإجمالي)1.89s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 3خطأ API: 1لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)70.81sزمن الاستجابة (الحد الأقصى)234.29sزمن الاستجابة (الإجمالي)1132.90s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 81.3%اختبارات غير مستقرة: 5…رموز الإخراج: 1,807رموز الاستدلال: 169,952زمن الاستجابة: المتوسط 70.81s · الإجمالي 1132.90s · الحد الأقصى 234.29s
انتهت المهلة: 3خطأ API: 1لم يتبع التعليمات: 1إجابة خاطئة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)71.35sزمن الاستجابة (الحد الأقصى)168.31sزمن الاستجابة (الإجمالي)214.06s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)17.78sزمن الاستجابة (الحد الأقصى)17.78sزمن الاستجابة (الإجمالي)17.78s
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)56.99sزمن الاستجابة (الحد الأقصى)80.14sزمن الاستجابة (الإجمالي)113.98s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)146.50sزمن الاستجابة (الحد الأقصى)234.29sزمن الاستجابة (الإجمالي)439.49s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)40.05sزمن الاستجابة (الحد الأقصى)40.05sزمن الاستجابة (الإجمالي)40.05s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)63.49sزمن الاستجابة (الحد الأقصى)111.61sزمن الاستجابة (الإجمالي)126.98s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 2زمن الاستجابة (المتوسط)56.74sزمن الاستجابة (الحد الأقصى)115.01sزمن الاستجابة (الإجمالي)170.23s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)10.33sزمن الاستجابة (الحد الأقصى)10.33sزمن الاستجابة (الإجمالي)10.33s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 10خطأ API: 1تنسيق إضافي: 1لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.97sزمن الاستجابة (الحد الأقصى)19.68sزمن الاستجابة (الإجمالي)35.60s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 13معدل النجاح لكل محاولة: 29.2%اختبارات غير مستقرة: 4…رموز الإخراج: 67,790رموز الاستدلال: 0زمن الاستجابة: المتوسط 2.97s · الإجمالي 35.60s · الحد الأقصى 19.68s
إجابة خاطئة: 10خطأ API: 1تنسيق إضافي: 1لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.36sزمن الاستجابة (الحد الأقصى)2.73sزمن الاستجابة (الإجمالي)4.07s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.87sزمن الاستجابة (الحد الأقصى)2.87sزمن الاستجابة (الإجمالي)2.87s
Data parsing and extraction: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1تنسيق إضافي: 1زمن الاستجابة (المتوسط)19.68sزمن الاستجابة (الحد الأقصى)19.68sزمن الاستجابة (الإجمالي)19.68s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)564msزمن الاستجابة (الحد الأقصى)564msزمن الاستجابة (الإجمالي)564ms
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.67sزمن الاستجابة (الحد الأقصى)1.67sزمن الاستجابة (الإجمالي)1.67s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)857msزمن الاستجابة (الحد الأقصى)955msزمن الاستجابة (الإجمالي)1.71s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.38sزمن الاستجابة (الحد الأقصى)1.74sزمن الاستجابة (الإجمالي)2.75s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.28sزمن الاستجابة (الحد الأقصى)2.28sزمن الاستجابة (الإجمالي)2.28s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 5لم يتبع التعليمات: 3انتهت المهلة: 1زمن الاستجابة (المتوسط)47.94sزمن الاستجابة (الحد الأقصى)204.02sزمن الاستجابة (الإجمالي)431.47s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 9معدل النجاح لكل محاولة: 60.4%اختبارات غير مستقرة: 6…رموز الإخراج: 4,386رموز الاستدلال: 142,080زمن الاستجابة: المتوسط 47.94s · الإجمالي 431.47s · الحد الأقصى 204.02s
إجابة خاطئة: 5لم يتبع التعليمات: 3انتهت المهلة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)37.73sزمن الاستجابة (الحد الأقصى)37.73sزمن الاستجابة (الإجمالي)37.73s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)65.96sزمن الاستجابة (الحد الأقصى)65.96sزمن الاستجابة (الإجمالي)65.96s
Data parsing and extraction: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)21.42sزمن الاستجابة (الحد الأقصى)21.42sزمن الاستجابة (الإجمالي)21.42s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)204.02sزمن الاستجابة (الحد الأقصى)204.02sزمن الاستجابة (الإجمالي)204.02s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)17.51sزمن الاستجابة (الحد الأقصى)17.51sزمن الاستجابة (الإجمالي)17.51s
Instructions following: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)11.90sزمن الاستجابة (الحد الأقصى)11.90sزمن الاستجابة (الإجمالي)11.90s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)19.81sزمن الاستجابة (الحد الأقصى)21.31sزمن الاستجابة (الإجمالي)39.63s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)33.30sزمن الاستجابة (الحد الأقصى)33.30sزمن الاستجابة (الإجمالي)33.30s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1لا توجد إجابة: 1انتهت المهلة: 1زمن الاستجابة (المتوسط)16.16sزمن الاستجابة (الحد الأقصى)28.96sزمن الاستجابة (الإجمالي)129.26s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 83.3%اختبارات غير مستقرة: 4…رموز الإخراج: 19,773رموز الاستدلال: 36,459زمن الاستجابة: المتوسط 16.16s · الإجمالي 129.26s · الحد الأقصى 28.96s
إجابة خاطئة: 2لم يتبع التعليمات: 1لا توجد إجابة: 1انتهت المهلة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)22.26sزمن الاستجابة (الحد الأقصى)22.26sزمن الاستجابة (الإجمالي)22.26s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)28.96sزمن الاستجابة (الحد الأقصى)28.96sزمن الاستجابة (الإجمالي)28.96s
Data parsing and extraction: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)8.90sزمن الاستجابة (الحد الأقصى)8.90sزمن الاستجابة (الإجمالي)8.90s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2انتهت المهلة: 1زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)14.69sزمن الاستجابة (الحد الأقصى)14.69sزمن الاستجابة (الإجمالي)14.69s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.25sزمن الاستجابة (الحد الأقصى)7.25sزمن الاستجابة (الإجمالي)7.25s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.64sزمن الاستجابة (الحد الأقصى)16.34sزمن الاستجابة (الإجمالي)31.27s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.93sزمن الاستجابة (الحد الأقصى)15.93sزمن الاستجابة (الإجمالي)15.93s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)12.36sزمن الاستجابة (الحد الأقصى)50.16sزمن الاستجابة (الإجمالي)111.21s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 0معدل النجاح لكل محاولة: 100.0%اختبارات غير مستقرة: 0…رموز الإخراج: 1,634رموز الاستدلال: 47,907زمن الاستجابة: المتوسط 12.36s · الإجمالي 111.21s · الحد الأقصى 50.16s
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.61sزمن الاستجابة (الحد الأقصى)5.61sزمن الاستجابة (الإجمالي)5.61s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)50.16sزمن الاستجابة (الحد الأقصى)50.16sزمن الاستجابة (الإجمالي)50.16s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.72sزمن الاستجابة (الحد الأقصى)4.72sزمن الاستجابة (الإجمالي)4.72s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)21.12sزمن الاستجابة (الحد الأقصى)21.12sزمن الاستجابة (الإجمالي)21.12s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.09sزمن الاستجابة (الحد الأقصى)4.09sزمن الاستجابة (الإجمالي)4.09s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.10sزمن الاستجابة (الحد الأقصى)6.10sزمن الاستجابة (الإجمالي)6.10s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.43sزمن الاستجابة (الحد الأقصى)4.68sزمن الاستجابة (الإجمالي)8.85s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)10.55sزمن الاستجابة (الحد الأقصى)10.55sزمن الاستجابة (الإجمالي)10.55s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 7لم يتبع التعليمات: 2لا توجد إجابة: 2invalid tool call: 1زمن الاستجابة (المتوسط)36.84sزمن الاستجابة (الحد الأقصى)174.55sزمن الاستجابة (الإجمالي)331.58s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 12معدل النجاح لكل محاولة: 41.7%اختبارات غير مستقرة: 7…رموز الإخراج: 38,682رموز الاستدلال: 64,952زمن الاستجابة: المتوسط 36.84s · الإجمالي 331.58s · الحد الأقصى 174.55s
إجابة خاطئة: 7لم يتبع التعليمات: 2لا توجد إجابة: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)27.09sزمن الاستجابة (الحد الأقصى)27.09sزمن الاستجابة (الإجمالي)27.09s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.invalid tool call: 1زمن الاستجابة (المتوسط)65.57sزمن الاستجابة (الحد الأقصى)65.57sزمن الاستجابة (الإجمالي)65.57s
Data parsing and extraction: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)1.51sزمن الاستجابة (الحد الأقصى)1.51sزمن الاستجابة (الإجمالي)1.51s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لا توجد إجابة: 1زمن الاستجابة (المتوسط)174.55sزمن الاستجابة (الحد الأقصى)174.55sزمن الاستجابة (الإجمالي)174.55s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)18.14sزمن الاستجابة (الحد الأقصى)18.14sزمن الاستجابة (الإجمالي)18.14s
Instructions following: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.97sزمن الاستجابة (الحد الأقصى)2.97sزمن الاستجابة (الإجمالي)2.97s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)12.90sزمن الاستجابة (الحد الأقصى)22.33sزمن الاستجابة (الإجمالي)25.80s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.95sزمن الاستجابة (الحد الأقصى)15.95sزمن الاستجابة (الإجمالي)15.95s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)34.45sزمن الاستجابة (الحد الأقصى)79.86sزمن الاستجابة (الإجمالي)310.09s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 3معدل النجاح لكل محاولة: 85.4%اختبارات غير مستقرة: 1…رموز الإخراج: 1,735رموز الاستدلال: 77,212زمن الاستجابة: المتوسط 34.45s · الإجمالي 310.09s · الحد الأقصى 79.86s
انتهت المهلة: 2إجابة خاطئة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)10.37sزمن الاستجابة (الحد الأقصى)10.37sزمن الاستجابة (الإجمالي)10.37s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)46.85sزمن الاستجابة (الحد الأقصى)46.85sزمن الاستجابة (الإجمالي)46.85s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)46.91sزمن الاستجابة (الحد الأقصى)46.91sزمن الاستجابة (الإجمالي)46.91s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)17.50sزمن الاستجابة (الحد الأقصى)17.50sزمن الاستجابة (الإجمالي)17.50s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1زمن الاستجابة (المتوسط)79.86sزمن الاستجابة (الحد الأقصى)79.86sزمن الاستجابة (الإجمالي)79.86s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)31.93sزمن الاستجابة (الحد الأقصى)31.93sزمن الاستجابة (الإجمالي)31.93s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)34.57sزمن الاستجابة (الحد الأقصى)49.12sزمن الاستجابة (الإجمالي)69.13s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.54sزمن الاستجابة (الحد الأقصى)7.54sزمن الاستجابة (الإجمالي)7.54s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 4إجابة خاطئة: 3انتهت المهلة: 1زمن الاستجابة (المتوسط)25.14sزمن الاستجابة (الحد الأقصى)88.15sزمن الاستجابة (الإجمالي)402.29s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 8معدل النجاح لكل محاولة: 58.3%اختبارات غير مستقرة: 2…رموز الإخراج: 5,826رموز الاستدلال: 48,768زمن الاستجابة: المتوسط 25.14s · الإجمالي 402.29s · الحد الأقصى 88.15s
لم يتبع التعليمات: 4إجابة خاطئة: 3انتهت المهلة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)16.45sزمن الاستجابة (الحد الأقصى)26.00sزمن الاستجابة (الإجمالي)49.36s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)88.15sزمن الاستجابة (الحد الأقصى)88.15sزمن الاستجابة (الإجمالي)88.15s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)12.58sزمن الاستجابة (الحد الأقصى)13.87sزمن الاستجابة (الإجمالي)25.16s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2انتهت المهلة: 1زمن الاستجابة (المتوسط)44.63sزمن الاستجابة (الحد الأقصى)82.55sزمن الاستجابة (الإجمالي)133.89s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)13.50sزمن الاستجابة (الحد الأقصى)13.50sزمن الاستجابة (الإجمالي)13.50s
Instructions following: 7.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)15.66sزمن الاستجابة (الحد الأقصى)21.80sزمن الاستجابة (الإجمالي)31.32s
Puzzle Solving: 4.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)14.09sزمن الاستجابة (الحد الأقصى)16.81sزمن الاستجابة (الإجمالي)42.28s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)18.64sزمن الاستجابة (الحد الأقصى)18.64sزمن الاستجابة (الإجمالي)18.64s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)7.15sزمن الاستجابة (الحد الأقصى)11.96sزمن الاستجابة (الإجمالي)64.34s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 3معدل النجاح لكل محاولة: 81.3%اختبارات غير مستقرة: 0…رموز الإخراج: 1,502رموز الاستدلال: 9,706زمن الاستجابة: المتوسط 7.15s · الإجمالي 64.34s · الحد الأقصى 11.96s
إجابة خاطئة: 3
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.75sزمن الاستجابة (الحد الأقصى)3.75sزمن الاستجابة (الإجمالي)3.75s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)10.37sزمن الاستجابة (الحد الأقصى)10.37sزمن الاستجابة (الإجمالي)10.37s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)10.84sزمن الاستجابة (الحد الأقصى)10.84sزمن الاستجابة (الإجمالي)10.84s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)7.01sزمن الاستجابة (الحد الأقصى)7.01sزمن الاستجابة (الإجمالي)7.01s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.34sزمن الاستجابة (الحد الأقصى)9.34sزمن الاستجابة (الإجمالي)9.34s
Instructions following: 9.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.26sزمن الاستجابة (الحد الأقصى)3.26sزمن الاستجابة (الإجمالي)3.26s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.91sزمن الاستجابة (الحد الأقصى)4.23sزمن الاستجابة (الإجمالي)7.81s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.96sزمن الاستجابة (الحد الأقصى)11.96sزمن الاستجابة (الإجمالي)11.96s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.48sزمن الاستجابة (الحد الأقصى)2.89sزمن الاستجابة (الإجمالي)23.64s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 10معدل النجاح لكل محاولة: 41.7%اختبارات غير مستقرة: 2…رموز الإخراج: 1,819رموز الاستدلال: 0زمن الاستجابة: المتوسط 1.48s · الإجمالي 23.64s · الحد الأقصى 2.89s
إجابة خاطئة: 9لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.41sزمن الاستجابة (الحد الأقصى)2.58sزمن الاستجابة (الإجمالي)4.23s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.89sزمن الاستجابة (الحد الأقصى)2.89sزمن الاستجابة (الإجمالي)2.89s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.04sزمن الاستجابة (الحد الأقصى)1.06sزمن الاستجابة (الإجمالي)2.08s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)1.07sزمن الاستجابة (الحد الأقصى)1.54sزمن الاستجابة (الإجمالي)3.22s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.78sزمن الاستجابة (الحد الأقصى)1.78sزمن الاستجابة (الإجمالي)1.78s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.07sزمن الاستجابة (الحد الأقصى)1.17sزمن الاستجابة (الإجمالي)2.15s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.52sزمن الاستجابة (الحد الأقصى)1.82sزمن الاستجابة (الإجمالي)4.56s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.75sزمن الاستجابة (الحد الأقصى)2.75sزمن الاستجابة (الإجمالي)2.75s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3لم يتبع التعليمات: 2لا توجد إجابة: 1انتهت المهلة: 1زمن الاستجابة (المتوسط)69.83sزمن الاستجابة (الحد الأقصى)137.29sزمن الاستجابة (الإجمالي)628.45s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 7معدل النجاح لكل محاولة: 72.9%اختبارات غير مستقرة: 5…رموز الإخراج: 38,453رموز الاستدلال: 72,496زمن الاستجابة: المتوسط 69.83s · الإجمالي 628.45s · الحد الأقصى 137.29s
إجابة خاطئة: 3لم يتبع التعليمات: 2لا توجد إجابة: 1انتهت المهلة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)85.28sزمن الاستجابة (الحد الأقصى)85.28sزمن الاستجابة (الإجمالي)85.28s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)71.37sزمن الاستجابة (الحد الأقصى)71.37sزمن الاستجابة (الإجمالي)71.37s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)49.78sزمن الاستجابة (الحد الأقصى)49.78sزمن الاستجابة (الإجمالي)49.78s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2انتهت المهلة: 1زمن الاستجابة (المتوسط)137.29sزمن الاستجابة (الحد الأقصى)137.29sزمن الاستجابة (الإجمالي)137.29s
General Intelligence: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)69.73sزمن الاستجابة (الحد الأقصى)69.73sزمن الاستجابة (الإجمالي)69.73s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)92.47sزمن الاستجابة (الحد الأقصى)92.47sزمن الاستجابة (الإجمالي)92.47s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)45.40sزمن الاستجابة (الحد الأقصى)82.75sزمن الاستجابة (الإجمالي)90.79s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)31.74sزمن الاستجابة (الحد الأقصى)31.74sزمن الاستجابة (الإجمالي)31.74s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)7.03sزمن الاستجابة (الحد الأقصى)38.52sزمن الاستجابة (الإجمالي)112.51s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 75.0%اختبارات غير مستقرة: 2…رموز الإخراج: 15,845رموز الاستدلال: 0زمن الاستجابة: المتوسط 7.03s · الإجمالي 112.51s · الحد الأقصى 38.52s
إجابة خاطئة: 4لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.97sزمن الاستجابة (الحد الأقصى)4.78sزمن الاستجابة (الإجمالي)11.90s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.12sزمن الاستجابة (الحد الأقصى)9.12sزمن الاستجابة (الإجمالي)9.12s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.05sزمن الاستجابة (الحد الأقصى)3.33sزمن الاستجابة (الإجمالي)6.10s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)17.78sزمن الاستجابة (الحد الأقصى)38.52sزمن الاستجابة (الإجمالي)53.33s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)3.20sزمن الاستجابة (الحد الأقصى)3.20sزمن الاستجابة (الإجمالي)3.20s
Instructions following: 6.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)5.46sزمن الاستجابة (الحد الأقصى)6.45sزمن الاستجابة (الإجمالي)10.92s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.42sزمن الاستجابة (الحد الأقصى)5.04sزمن الاستجابة (الإجمالي)13.27s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.68sزمن الاستجابة (الحد الأقصى)4.68sزمن الاستجابة (الإجمالي)4.68s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 3إجابة خاطئة: 2لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)5.57sزمن الاستجابة (الحد الأقصى)23.84sزمن الاستجابة (الإجمالي)50.12s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 66.7%اختبارات غير مستقرة: 1…رموز الإخراج: 6,895رموز الاستدلال: 0زمن الاستجابة: المتوسط 5.57s · الإجمالي 50.12s · الحد الأقصى 23.84s
تنسيق إضافي: 3إجابة خاطئة: 2لم يتبع التعليمات: 1
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 2زمن الاستجابة (المتوسط)4.83sزمن الاستجابة (الحد الأقصى)4.83sزمن الاستجابة (الإجمالي)4.83s
Combined: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)23.84sزمن الاستجابة (الحد الأقصى)23.84sزمن الاستجابة (الإجمالي)23.84s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.43sزمن الاستجابة (الحد الأقصى)3.43sزمن الاستجابة (الإجمالي)3.43s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.54sزمن الاستجابة (الحد الأقصى)3.54sزمن الاستجابة (الإجمالي)3.54s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)2.56sزمن الاستجابة (الحد الأقصى)2.56sزمن الاستجابة (الإجمالي)2.56s
Instructions following: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.96sزمن الاستجابة (الحد الأقصى)1.96sزمن الاستجابة (الإجمالي)1.96s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 1زمن الاستجابة (المتوسط)2.92sزمن الاستجابة (الحد الأقصى)3.33sزمن الاستجابة (الإجمالي)5.84s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.11sزمن الاستجابة (الحد الأقصى)4.11sزمن الاستجابة (الإجمالي)4.11s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)12.35sزمن الاستجابة (الحد الأقصى)95.48sزمن الاستجابة (الإجمالي)197.62s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 5معدل النجاح لكل محاولة: 72.9%اختبارات غير مستقرة: 1…رموز الإخراج: 1,370رموز الاستدلال: 110,522زمن الاستجابة: المتوسط 12.35s · الإجمالي 197.62s · الحد الأقصى 95.48s
إجابة خاطئة: 4لم يتبع التعليمات: 1
Anti-AI Tricks: 7.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)6.98sزمن الاستجابة (الحد الأقصى)15.56sزمن الاستجابة (الإجمالي)20.95s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)28.44sزمن الاستجابة (الحد الأقصى)28.44sزمن الاستجابة (الإجمالي)28.44s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.06sزمن الاستجابة (الحد الأقصى)5.06sزمن الاستجابة (الإجمالي)8.11s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)37.34sزمن الاستجابة (الحد الأقصى)95.48sزمن الاستجابة (الإجمالي)112.01s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.86sزمن الاستجابة (الحد الأقصى)4.86sزمن الاستجابة (الإجمالي)4.86s
Instructions following: 9.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.62sزمن الاستجابة (الحد الأقصى)2.78sزمن الاستجابة (الإجمالي)5.24s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.94sزمن الاستجابة (الحد الأقصى)6.33sزمن الاستجابة (الإجمالي)11.83s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.20sزمن الاستجابة (الحد الأقصى)6.20sزمن الاستجابة (الإجمالي)6.20s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 3لا توجد إجابة: 1انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)15.33sزمن الاستجابة (الحد الأقصى)77.80sزمن الاستجابة (الإجمالي)138.01s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 75.0%اختبارات غير مستقرة: 4…رموز الإخراج: 2,220رموز الاستدلال: 16,811زمن الاستجابة: المتوسط 15.33s · الإجمالي 138.01s · الحد الأقصى 77.80s
لم يتبع التعليمات: 3لا توجد إجابة: 1انتهت المهلة: 1إجابة خاطئة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)14.34sزمن الاستجابة (الحد الأقصى)14.34sزمن الاستجابة (الإجمالي)14.34s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)14.06sزمن الاستجابة (الحد الأقصى)14.06sزمن الاستجابة (الإجمالي)14.06s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.15sزمن الاستجابة (الحد الأقصى)3.15sزمن الاستجابة (الإجمالي)3.15s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)77.80sزمن الاستجابة (الحد الأقصى)77.80sزمن الاستجابة (الإجمالي)77.80s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.32sزمن الاستجابة (الحد الأقصى)4.32sزمن الاستجابة (الإجمالي)4.32s
Instructions following: 9.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.12sزمن الاستجابة (الحد الأقصى)3.12sزمن الاستجابة (الإجمالي)3.12s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)5.47sزمن الاستجابة (الحد الأقصى)6.45sزمن الاستجابة (الإجمالي)10.94s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)10.30sزمن الاستجابة (الحد الأقصى)10.30sزمن الاستجابة (الإجمالي)10.30s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4لم يتبع التعليمات: 2زمن الاستجابة (المتوسط)5.96sزمن الاستجابة (الحد الأقصى)18.33sزمن الاستجابة (الإجمالي)95.30s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 70.8%اختبارات غير مستقرة: 3…رموز الإخراج: 19,272رموز الاستدلال: 0زمن الاستجابة: المتوسط 5.96s · الإجمالي 95.30s · الحد الأقصى 18.33s
إجابة خاطئة: 4لم يتبع التعليمات: 2
Anti-AI Tricks: 7.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.72sزمن الاستجابة (الحد الأقصى)7.35sزمن الاستجابة (الإجمالي)14.17s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.96sزمن الاستجابة (الحد الأقصى)11.96sزمن الاستجابة (الإجمالي)11.96s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.21sزمن الاستجابة (الحد الأقصى)2.52sزمن الاستجابة (الإجمالي)4.42s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)13.01sزمن الاستجابة (الحد الأقصى)18.33sزمن الاستجابة (الإجمالي)39.04s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)1.99sزمن الاستجابة (الحد الأقصى)1.99sزمن الاستجابة (الإجمالي)1.99s
Instructions following: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)3.29sزمن الاستجابة (الحد الأقصى)4.18sزمن الاستجابة (الإجمالي)6.59s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.93sزمن الاستجابة (الحد الأقصى)3.05sزمن الاستجابة (الإجمالي)8.78s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)8.36sزمن الاستجابة (الحد الأقصى)8.36sزمن الاستجابة (الإجمالي)8.36s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)16.60sزمن الاستجابة (الحد الأقصى)40.61sزمن الاستجابة (الإجمالي)149.36s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 1معدل النجاح لكل محاولة: 93.8%اختبارات غير مستقرة: 0…رموز الإخراج: 1,521رموز الاستدلال: 35,656زمن الاستجابة: المتوسط 16.60s · الإجمالي 149.36s · الحد الأقصى 40.61s
إجابة خاطئة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.52sزمن الاستجابة (الحد الأقصى)9.52sزمن الاستجابة (الإجمالي)9.52s
Combined: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)40.61sزمن الاستجابة (الحد الأقصى)40.61sزمن الاستجابة (الإجمالي)40.61s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.72sزمن الاستجابة (الحد الأقصى)7.72sزمن الاستجابة (الإجمالي)7.72s
Domain specific: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)32.73sزمن الاستجابة (الحد الأقصى)32.73sزمن الاستجابة (الإجمالي)32.73s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)11.77sزمن الاستجابة (الحد الأقصى)11.77sزمن الاستجابة (الإجمالي)11.77s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.56sزمن الاستجابة (الحد الأقصى)9.56sزمن الاستجابة (الإجمالي)9.56s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.15sزمن الاستجابة (الحد الأقصى)8.49sزمن الاستجابة (الإجمالي)14.30s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)23.15sزمن الاستجابة (الحد الأقصى)23.15sزمن الاستجابة (الإجمالي)23.15s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)52.13sزمن الاستجابة (الحد الأقصى)163.96sزمن الاستجابة (الإجمالي)834.16s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 81.3%اختبارات غير مستقرة: 2…رموز الإخراج: 1,658رموز الاستدلال: 200,786زمن الاستجابة: المتوسط 52.13s · الإجمالي 834.16s · الحد الأقصى 163.96s
لم يتبع التعليمات: 2انتهت المهلة: 1إجابة خاطئة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.69sزمن الاستجابة (الحد الأقصى)10.84sزمن الاستجابة (الإجمالي)29.06s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)163.96sزمن الاستجابة (الحد الأقصى)163.96sزمن الاستجابة (الإجمالي)163.96s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)30.26sزمن الاستجابة (الحد الأقصى)32.03sزمن الاستجابة (الإجمالي)60.52s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)79.53sزمن الاستجابة (الحد الأقصى)95.52sزمن الاستجابة (الإجمالي)238.59s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)101.41sزمن الاستجابة (الحد الأقصى)101.41sزمن الاستجابة (الإجمالي)101.41s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)19.66sزمن الاستجابة (الحد الأقصى)32.25sزمن الاستجابة (الإجمالي)39.32s
Puzzle Solving: 8.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)64.61sزمن الاستجابة (الحد الأقصى)123.57sزمن الاستجابة (الإجمالي)193.84s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.45sزمن الاستجابة (الحد الأقصى)7.45sزمن الاستجابة (الإجمالي)7.45s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3انتهت المهلة: 1زمن الاستجابة (المتوسط)29.74sزمن الاستجابة (الحد الأقصى)119.29sزمن الاستجابة (الإجمالي)475.83s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 79.2%اختبارات غير مستقرة: 2…رموز الإخراج: 17,292رموز الاستدلال: 145,625زمن الاستجابة: المتوسط 29.74s · الإجمالي 475.83s · الحد الأقصى 119.29s
إجابة خاطئة: 3انتهت المهلة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.99sزمن الاستجابة (الحد الأقصى)11.62sزمن الاستجابة (الإجمالي)20.98s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)107.79sزمن الاستجابة (الحد الأقصى)107.79sزمن الاستجابة (الإجمالي)107.79s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)23.41sزمن الاستجابة (الحد الأقصى)29.79sزمن الاستجابة (الإجمالي)46.83s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)63.40sزمن الاستجابة (الحد الأقصى)119.29sزمن الاستجابة (الإجمالي)190.20s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1زمن الاستجابة (المتوسط)34.11sزمن الاستجابة (الحد الأقصى)34.11sزمن الاستجابة (الإجمالي)34.11s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.88sزمن الاستجابة (الحد الأقصى)15.44sزمن الاستجابة (الإجمالي)19.76s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)17.18sزمن الاستجابة (الحد الأقصى)31.99sزمن الاستجابة (الإجمالي)51.55s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.60sزمن الاستجابة (الحد الأقصى)4.60sزمن الاستجابة (الإجمالي)4.60s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 4إجابة خاطئة: 2خطأ API: 1لا توجد إجابة: 1زمن الاستجابة (المتوسط)43.93sزمن الاستجابة (الحد الأقصى)106.00sزمن الاستجابة (الإجمالي)702.85s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 8معدل النجاح لكل محاولة: 77.1%اختبارات غير مستقرة: 7…رموز الإخراج: 5,495رموز الاستدلال: 169,266زمن الاستجابة: المتوسط 43.93s · الإجمالي 702.85s · الحد الأقصى 106.00s
انتهت المهلة: 4إجابة خاطئة: 2خطأ API: 1لا توجد إجابة: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)21.75sزمن الاستجابة (الحد الأقصى)34.96sزمن الاستجابة (الإجمالي)65.26s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابة: 1زمن الاستجابة (المتوسط)75.34sزمن الاستجابة (الحد الأقصى)75.34sزمن الاستجابة (الإجمالي)75.34s
Data parsing and extraction: 5.5يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)59.33sزمن الاستجابة (الحد الأقصى)97.12sزمن الاستجابة (الإجمالي)118.65s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)88.34sزمن الاستجابة (الحد الأقصى)106.00sزمن الاستجابة (الإجمالي)265.01s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1زمن الاستجابة (المتوسط)30.30sزمن الاستجابة (الحد الأقصى)30.30sزمن الاستجابة (الإجمالي)30.30s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)24.45sزمن الاستجابة (الحد الأقصى)43.36sزمن الاستجابة (الإجمالي)48.89s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)31.58sزمن الاستجابة (الحد الأقصى)60.18sزمن الاستجابة (الإجمالي)94.75s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.65sزمن الاستجابة (الحد الأقصى)4.65sزمن الاستجابة (الإجمالي)4.65s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 2زمن الاستجابة (المتوسط)16.59sزمن الاستجابة (الحد الأقصى)100.93sزمن الاستجابة (الإجمالي)265.39s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 83.3%اختبارات غير مستقرة: 2…رموز الإخراج: 1,764رموز الاستدلال: 33,348زمن الاستجابة: المتوسط 16.59s · الإجمالي 265.39s · الحد الأقصى 100.93s
لم يتبع التعليمات: 2إجابة خاطئة: 2
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.69sزمن الاستجابة (الحد الأقصى)6.68sزمن الاستجابة (الإجمالي)14.06s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)19.56sزمن الاستجابة (الحد الأقصى)19.56sزمن الاستجابة (الإجمالي)19.56s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.07sزمن الاستجابة (الحد الأقصى)3.59sزمن الاستجابة (الإجمالي)6.15s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)64.31sزمن الاستجابة (الحد الأقصى)100.93sزمن الاستجابة (الإجمالي)192.94s
General Intelligence: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.87sزمن الاستجابة (الحد الأقصى)4.87sزمن الاستجابة (الإجمالي)4.87s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.04sزمن الاستجابة (الحد الأقصى)3.44sزمن الاستجابة (الإجمالي)6.07s
Puzzle Solving: 9.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)5.12sزمن الاستجابة (الحد الأقصى)8.73sزمن الاستجابة (الإجمالي)15.37s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)6.37sزمن الاستجابة (الحد الأقصى)6.37sزمن الاستجابة (الإجمالي)6.37s
إجمالي الاختبارات: 16الاختبارات الخاطئة: 11معدل النجاح لكل محاولة: 60.4%اختبارات غير مستقرة: 9…رموز الإخراج: 107,044رموز الاستدلال: 206,190زمن الاستجابة: المتوسط 43.03s · الإجمالي 387.25s · الحد الأقصى 237.27s
إجابة خاطئة: 5لم يتبع التعليمات: 3انتهت المهلة: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 9.3يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)32.42sزمن الاستجابة (الحد الأقصى)32.42sزمن الاستجابة (الإجمالي)32.42s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.invalid tool call: 1زمن الاستجابة (المتوسط)60.39sزمن الاستجابة (الحد الأقصى)60.39sزمن الاستجابة (الإجمالي)60.39s
Data parsing and extraction: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)7.48sزمن الاستجابة (الحد الأقصى)7.48sزمن الاستجابة (الإجمالي)7.48s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2انتهت المهلة: 1زمن الاستجابة (المتوسط)237.27sزمن الاستجابة (الحد الأقصى)237.27sزمن الاستجابة (الإجمالي)237.27s
General Intelligence: 3.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)6.63sزمن الاستجابة (الحد الأقصى)6.63sزمن الاستجابة (الإجمالي)6.63s
Instructions following: 8.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.64sزمن الاستجابة (الحد الأقصى)4.64sزمن الاستجابة (الإجمالي)4.64s
Puzzle Solving: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)11.54sزمن الاستجابة (الحد الأقصى)17.37sزمن الاستجابة (الإجمالي)23.08s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.35sزمن الاستجابة (الحد الأقصى)15.35sزمن الاستجابة (الإجمالي)15.35s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 2إجابة خاطئة: 2زمن الاستجابة (المتوسط)20.05sزمن الاستجابة (الحد الأقصى)100.41sزمن الاستجابة (الإجمالي)320.87s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 83.3%اختبارات غير مستقرة: 3…رموز الإخراج: 1,756رموز الاستدلال: 46,642زمن الاستجابة: المتوسط 20.05s · الإجمالي 320.87s · الحد الأقصى 100.41s
لم يتبع التعليمات: 2إجابة خاطئة: 2
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.02sزمن الاستجابة (الحد الأقصى)6.42sزمن الاستجابة (الإجمالي)15.06s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)20.57sزمن الاستجابة (الحد الأقصى)20.57sزمن الاستجابة (الإجمالي)20.57s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.32sزمن الاستجابة (الحد الأقصى)5.40sزمن الاستجابة (الإجمالي)10.64s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)74.27sزمن الاستجابة (الحد الأقصى)100.41sزمن الاستجابة (الإجمالي)222.80s
General Intelligence: 5.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)4.92sزمن الاستجابة (الحد الأقصى)4.92sزمن الاستجابة (الإجمالي)4.92s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.11sزمن الاستجابة (الحد الأقصى)3.68sزمن الاستجابة (الإجمالي)6.22s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)9.13sزمن الاستجابة (الحد الأقصى)18.14sزمن الاستجابة (الإجمالي)27.39s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)13.28sزمن الاستجابة (الحد الأقصى)13.28sزمن الاستجابة (الإجمالي)13.28s
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 77.1%اختبارات غير مستقرة: 1…رموز الإخراج: 35,159رموز الاستدلال: 24,687زمن الاستجابة: المتوسط 11.23s · الإجمالي 89.84s · الحد الأقصى 46.35s
تنسيق إضافي: 2انتهت المهلة: 1إجابة خاطئة: 1
Anti-AI Tricks: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 1زمن الاستجابة (المتوسط)4.95sزمن الاستجابة (الحد الأقصى)4.95sزمن الاستجابة (الإجمالي)4.95s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)46.35sزمن الاستجابة (الحد الأقصى)46.35sزمن الاستجابة (الإجمالي)46.35s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)13.90sزمن الاستجابة (الحد الأقصى)13.90sزمن الاستجابة (الإجمالي)13.90s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 1انتهت المهلة: 1إجابة خاطئة: 1زمن الاستجابة (المتوسط)0msزمن الاستجابة (الحد الأقصى)0msزمن الاستجابة (الإجمالي)0ms
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.94sزمن الاستجابة (الحد الأقصى)4.94sزمن الاستجابة (الإجمالي)4.94s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.61sزمن الاستجابة (الحد الأقصى)2.61sزمن الاستجابة (الإجمالي)2.61s
Puzzle Solving: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)4.80sزمن الاستجابة (الحد الأقصى)5.22sزمن الاستجابة (الإجمالي)9.60s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.48sزمن الاستجابة (الحد الأقصى)7.48sزمن الاستجابة (الإجمالي)7.48s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 4إجابة خاطئة: 2زمن الاستجابة (المتوسط)22.86sزمن الاستجابة (الحد الأقصى)83.40sزمن الاستجابة (الإجمالي)205.71s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 6معدل النجاح لكل محاولة: 66.7%اختبارات غير مستقرة: 2…رموز الإخراج: 26,254رموز الاستدلال: 17,363زمن الاستجابة: المتوسط 22.86s · الإجمالي 205.71s · الحد الأقصى 83.40s
تنسيق إضافي: 4إجابة خاطئة: 2
Anti-AI Tricks: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 2زمن الاستجابة (المتوسط)11.88sزمن الاستجابة (الحد الأقصى)11.88sزمن الاستجابة (الإجمالي)11.88s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)76.66sزمن الاستجابة (الحد الأقصى)76.66sزمن الاستجابة (الإجمالي)76.66s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.37sزمن الاستجابة (الحد الأقصى)7.37sزمن الاستجابة (الإجمالي)7.37s
Domain specific: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 2إجابة خاطئة: 1زمن الاستجابة (المتوسط)83.40sزمن الاستجابة (الحد الأقصى)83.40sزمن الاستجابة (الإجمالي)83.40s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.04sزمن الاستجابة (الحد الأقصى)5.04sزمن الاستجابة (الإجمالي)5.04s
Instructions following: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)2.43sزمن الاستجابة (الحد الأقصى)2.43sزمن الاستجابة (الإجمالي)2.43s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)4.60sزمن الاستجابة (الحد الأقصى)4.66sزمن الاستجابة (الإجمالي)9.20s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)9.73sزمن الاستجابة (الحد الأقصى)9.73sزمن الاستجابة (الإجمالي)9.73s
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)68.83sزمن الاستجابة (الحد الأقصى)280.52sزمن الاستجابة (الإجمالي)1101.32s…
إجمالي الاختبارات: 16الاختبارات الخاطئة: 4معدل النجاح لكل محاولة: 77.1%اختبارات غير مستقرة: 1…رموز الإخراج: 1,283رموز الاستدلال: 1,533,310زمن الاستجابة: المتوسط 68.83s · الإجمالي 1101.32s · الحد الأقصى 280.52s
إجابة خاطئة: 3لم يتبع التعليمات: 1
Anti-AI Tricks: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)43.87sزمن الاستجابة (الحد الأقصى)121.88sزمن الاستجابة (الإجمالي)131.62s
Combined: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)280.52sزمن الاستجابة (الحد الأقصى)280.52sزمن الاستجابة (الإجمالي)280.52s
Data parsing and extraction: 9.9يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.16sزمن الاستجابة (الحد الأقصى)8.54sزمن الاستجابة (الإجمالي)14.31s
Domain specific: 4.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)127.58sزمن الاستجابة (الحد الأقصى)133.93sزمن الاستجابة (الإجمالي)382.74s
General Intelligence: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)5.25sزمن الاستجابة (الحد الأقصى)5.25sزمن الاستجابة (الإجمالي)5.25s
Instructions following: 9.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لم يتبع التعليمات: 1زمن الاستجابة (المتوسط)70.07sزمن الاستجابة (الحد الأقصى)136.53sزمن الاستجابة (الإجمالي)140.14s
Puzzle Solving: 7.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)46.33sزمن الاستجابة (الحد الأقصى)134.22sزمن الاستجابة (الإجمالي)139.00s
Tool Calling: 10.0يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)7.73sزمن الاستجابة (الحد الأقصى)7.73sزمن الاستجابة (الإجمالي)7.73s