AI BENCHY
Advertise here

إخفاقات الفئات في AI BENCHY

الذكاء العام: إجابة خاطئة

الذكاء العام
إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

15

إجمالي الإخفاقات

32

النموذج الأكثر تأثرًا

Step 3.7 Flash 1
الترتيب النموذج الشركة عدد إجابة خاطئة درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#101 Mimo V2 Omni none Xiaomi 1 4.1 0/1 2.33s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 1 5.0 0/1 13.5s
#112 GLM 5.1 none Z.ai 1 5.0 0/1 790ms
#122 GLM 4.7 Flash none Z.ai 1 4.0 0/1 1.59s
#123 MiMo-V2.5-Pro none Xiaomi 1 4.0 0/1 2.58s
#125 GPT-5.4 none OpenAI 1 4.4 0/1 1.78s
#126 gpt-oss-120b none OpenAI 1 4.8 0/1 10.8s
#127 Grok 4.20 none X AI 1 4.8 0/1 659ms
#138 Ling-2.6-flash none Inclusionai 1 4.0 0/1 1.45s
#139 DeepSeek V4 Flash none DeepSeek 1 4.2 0/1 23.7s
#141 Nemotron 3 Super none NVIDIA 1 4.6 0/1 950ms
#142 Mistral Small 4 none Mistral 1 4.0 0/1 729ms
#143 MiMo-V2.5 none Xiaomi 1 4.4 0/1 6.86s
#147 GPT-4o-mini none OpenAI 1 4.0 0/1 909ms
#153 Qwen3.6 35B A3B none Qwen 1 4.4 0/1 3.51s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية