AI BENCHY
قارن الرسوم البيانية المنهجية
❤️ Made by XCS
Your ad here

إخفاقات الفئات في AI BENCHY

اتباع التعليمات
لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في اتباع التعليمات، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

9

إجمالي الإخفاقات

9

النموذج الأكثر تأثرًا

Gemini 3.1 Flash Lite Preview 1

أسباب الإخفاق المرتبطة

الترتيب النموذج الشركة عدد لم يتبع التعليمات درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#8 Gemini 3.1 Flash Lite Preview high Google 1 9.0 1/2 70.1s
#32 GPT-5 Mini medium OpenAI 1 7.5 1/2 15.7s
#34 GPT-5 Nano medium OpenAI 1 9.0 1/2 11.9s
#50 Qwen3 Coder Next medium Qwen 1 4.5 0/2 7.34s
#30 Grok 4.1 Fast medium X AI 1 5.5 1/2 5.30s
#13 Step 3.5 Flash medium Stepfun 1 9.0 1/2 4.98s
#43 MiniMax M2.5 medium Minimax 1 8.0 1/2 4.64s
#47 GPT-4o-mini none OpenAI 1 4.5 0/2 1.27s
#45 Trinity Large Preview none Arcee AI 1 3.5 0/2 1.09s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل متوسط الدرجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية