AI BENCHY
Advertise here

إخفاقات الفئات في AI BENCHY

معلومات عامة: إجابة خاطئة

معلومات عامة
إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في معلومات عامة، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

15

إجمالي الإخفاقات

117

النموذج الأكثر تأثرًا

Claude Opus 4.7 1

أسباب الفشل

الترتيب النموذج الشركة عدد إجابة خاطئة درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#106 MiniMax M2.5 medium Minimax 1 3.0 0/1 80.8s
#107 Mistral Small 4 medium Mistral 1 3.0 0/1 5.92s
#110 Qwen3.5-122B-A10B none Qwen 1 3.0 0/1 295ms
#112 Kimi K2.5 none Moonshot AI 1 3.0 0/1 3.90s
#114 GLM 5 Turbo none Z.ai 1 3.0 0/1 2.37s
#118 Ling-2.6-flash none Inclusionai 1 3.0 0/1 1.06s
#119 gpt-oss-120b none OpenAI 1 3.0 0/1 47.3s
#120 DeepSeek V4 Flash none DeepSeek 1 3.0 0/1 3.07s
#121 Qwen3 Coder Next none Qwen 1 3.0 0/1 601ms
#122 Nemotron 3 Super none NVIDIA 1 3.0 0/1 8.94s
#123 MiniMax M2.7 medium Minimax 1 3.0 0/1 22.8s
#124 Mistral Small 4 none Mistral 1 3.0 0/1 397ms
#125 GPT-5.4 Mini none OpenAI 1 3.0 0/1 1.33s
#126 Qwen3.6 35B A3B none Qwen 1 3.0 0/1 414ms
#127 GPT-4o-mini none OpenAI 1 3.0 0/1 794ms

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية