إخفاقات الفئات في AI BENCHY
تحليل البيانات واستخراجها
إجابة خاطئة
تحليل البيانات واستخراجها
إجابة خاطئة
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في تحليل البيانات واستخراجها، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.
أسباب الإخفاق المرتبطة
| الترتيب | النموذج | الشركة | عدد إجابة خاطئة | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #51 | Mercury 2 none | Inception | 1 | 5.5 | 1/2 | 667ms |
| #55 | LFM2-24B-A2B none | Liquid | 2 | 10.0 | 0/2 | 714ms |
| #36 | Mercury 2 medium | Inception | 1 | 5.5 | 1/2 | 1.11s |
| #48 | Qwen3 Coder Next none | Qwen | 1 | 5.4 | 1/2 | 1.32s |
| #39 | gpt-oss-120b medium | OpenAI | 1 | 5.5 | 1/2 | 1.98s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 5.4 | 1/2 | 4.82s |
| #43 | MiniMax M2.5 medium | Minimax | 2 | 10.0 | 0/2 | 7.48s |
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.4 | 1/2 | 9.42s |
| #34 | GPT-5 Nano medium | OpenAI | 2 | 10.0 | 0/2 | 21.4s |
| #46 | Kimi K2.5 none | Moonshot AI | 1 | 5.4 | 1/2 | 42.1s |
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 5.4 | 1/2 | 81.8s |