إخفاقات الفئات في AI BENCHY
البرمجة: خطأ API
البرمجة
خطأ API
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.
أسباب الفشل
| الترتيب | النموذج | الشركة | عدد خطأ API | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #10 | Gemini 3 PRO Preview medium | 1 | 3.0 | 0/1 | 0ms | |
| #18 | Qwen3.6 Plus medium | Qwen | 1 | 3.0 | 0/1 | 0ms |
| #47 | Hunter Alpha medium | OpenRouter | 1 | 3.0 | 0/1 | 0ms |
| #48 | Nemotron 3 Super medium | NVIDIA | 1 | 3.0 | 0/1 | 0ms |
| #68 | Hunter Alpha none | OpenRouter | 1 | 3.0 | 0/1 | 0ms |
| #93 | Step 3.5 Flash none | Stepfun | 1 | 3.0 | 0/1 | 0ms |