AI BENCHY
Your ad here

إخفاقات الفئات في AI BENCHY

خاص بالمجال: إجابة خاطئة

خاص بالمجال
إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

15

إجمالي الإخفاقات

182

النموذج الأكثر تأثرًا

Qwen3.6 Plus Preview 3
الترتيب النموذج الشركة عدد إجابة خاطئة درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#87 Qwen3 Coder Next none Qwen 2 5.3 1/3 962ms
#91 Mercury 2 none Inception 2 5.3 1/3 534ms
#92 Qwen3 Coder Next medium Qwen 2 5.3 1/3 638ms
#93 GLM 4.7 Flash medium Z.ai 2 3.5 0/3 174.6s
#94 MiMo-V2-Flash none Xiaomi 2 5.3 1/3 564ms
#95 Grok 4.1 Fast none X AI 2 5.9 1/3 1.06s
#2 Gemini 3.1 Pro Preview medium Google 1 7.7 2/3 32.7s
#4 Claude Opus 4.7 none Anthropic 1 7.7 2/3 1.19s
#8 Qwen3.5 Plus 2026-02-15 medium Qwen 1 5.3 1/3 17.5s
#10 Qwen3.5-27B medium Qwen 1 5.3 1/3 79.5s
#14 Gemma 4 31B medium Google 1 7.7 2/3 38.5s
#21 Gemini 3 Flash Preview none Google 1 7.7 2/3 963ms
#23 MiMo-V2-Pro medium Xiaomi 1 5.3 1/3 6.00s
#26 Claude Sonnet 4.6 medium Anthropic 1 2.9 0/3 0ms
#27 DeepSeek V3.2 medium DeepSeek 1 5.3 1/3 39.3s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية