AI BENCHY
قارن الرسوم البيانية المنهجية
❤️ Made by XCS
Your ad here

إخفاقات الفئات في AI BENCHY

اتباع التعليمات
لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في اتباع التعليمات، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

9

إجمالي الإخفاقات

9

النموذج الأكثر تأثرًا

Trinity Large Preview 1

أسباب الإخفاق المرتبطة

الترتيب النموذج الشركة عدد لم يتبع التعليمات درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#45 Trinity Large Preview none Arcee AI 1 3.5 0/2 1.09s
#47 GPT-4o-mini none OpenAI 1 4.5 0/2 1.27s
#43 MiniMax M2.5 medium Minimax 1 8.0 1/2 4.64s
#13 Step 3.5 Flash medium Stepfun 1 9.0 1/2 4.98s
#30 Grok 4.1 Fast medium X AI 1 5.5 1/2 5.30s
#50 Qwen3 Coder Next medium Qwen 1 4.5 0/2 7.34s
#34 GPT-5 Nano medium OpenAI 1 9.0 1/2 11.9s
#32 GPT-5 Mini medium OpenAI 1 7.5 1/2 15.7s
#8 Gemini 3.1 Flash Lite Preview high Google 1 9.0 1/2 70.1s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل متوسط الدرجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية