إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: إجابة خاطئة
حيل مضادة للذكاء الاصطناعي
إجابة خاطئة
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.
| الترتيب | النموذج | الشركة | عدد إجابة خاطئة | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #142 | Mistral Small 4 none | Mistral | 4 | 3.4 | 0/4 | 395ms |
| #160 | LFM2-24B-A2B none | Liquid | 3 | 3.3 | 0/3 | 471ms |
| #155 | Mercury 2 none | Inception | 4 | 3.0 | 0/4 | 483ms |
| #127 | Grok 4.20 none | X AI | 3 | 4.8 | 1/4 | 501ms |
| #146 | Laguna Xs.2 none | Poolside | 2 | 3.0 | 0/4 | 534ms |
| #97 | Gemini 2.5 Flash none | 4 | 3.0 | 0/4 | 582ms | |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 2 | 4.8 | 1/4 | 584ms |
| #106 | Grok 4.20 Beta none | X AI | 4 | 4.0 | 0/4 | 597ms |
| #145 | Laguna M.1 none | Poolside | 3 | 3.4 | 0/4 | 705ms |
| #115 | Qwen3.5-27B none | Qwen | 3 | 4.8 | 1/4 | 788ms |
| #163 | Granite 4.1 8B none | IBM Granite | 2 | 4.9 | 1/4 | 844ms |
| #32 | Gemini 3.5 Flash minimal | 2 | 6.5 | 2/4 | 892ms | |
| #144 | GPT-5.4 Mini none | OpenAI | 4 | 3.1 | 0/4 | 929ms |
| #137 | Elephant Alpha none | Openrouter | 1 | 6.6 | 2/4 | 963ms |
| #58 | Gemini 3.1 Flash Lite Preview none | 1 | 7.5 | 2/4 | 1.04s |