إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: إجابة خاطئة
حيل مضادة للذكاء الاصطناعي
إجابة خاطئة
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.
| الترتيب | النموذج | الشركة | عدد إجابة خاطئة | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #97 | Gemini 2.5 Flash none | 4 | 3.0 | 0/4 | 582ms | |
| #101 | Mimo V2 Omni none | Xiaomi | 3 | 3.6 | 0/4 | 1.63s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 4 | 3.5 | 0/4 | 2.35s |
| #106 | Grok 4.20 Beta none | X AI | 4 | 4.0 | 0/4 | 597ms |
| #108 | Qwen3.5-Flash none | Qwen | 4 | 3.5 | 0/4 | 1.32s |
| #110 | Seed-2.0-Lite none | Bytedance Seed | 4 | 3.0 | 0/4 | 2.43s |
| #112 | GLM 5.1 none | Z.ai | 4 | 4.0 | 0/4 | 2.11s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 3 | 3.5 | 0/4 | 14.0s |
| #116 | Hunter Alpha none | OpenRouter | 4 | 3.5 | 0/4 | 3.81s |
| #117 | Qwen3.5-35B-A3B none | Qwen | 4 | 3.4 | 0/4 | 1.43s |
| #118 | Qwen3.6 27B none | Qwen | 4 | 3.8 | 0/4 | 2.83s |
| #120 | Mimo V2 PRO none | Xiaomi | 4 | 3.5 | 0/4 | 1.80s |
| #121 | Owl Alpha none | Openrouter | 3 | 3.4 | 0/4 | 2.78s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 3 | 3.3 | 0/4 | 2.67s |
| #125 | GPT-5.4 none | OpenAI | 4 | 3.2 | 0/4 | 1.21s |