إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: إجابة خاطئة
حيل مضادة للذكاء الاصطناعي
إجابة خاطئة
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.
| الترتيب | النموذج | الشركة | عدد إجابة خاطئة | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #73 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 6.6 | 2/4 | 74.7s |
| #76 | Kimi K2.5 medium | Moonshot AI | 1 | 7.3 | 2/4 | 51.4s |
| #25 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 1 | 8.2 | 3/4 | 45.8s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 7.9 | 2/4 | 40.3s |
| #53 | Gemini 3.1 Flash Lite high | 1 | 8.7 | 3/4 | 37.2s | |
| #161 | Qwen3.5-9B medium | Qwen | 1 | 5.1 | 1/4 | 34.4s |
| #126 | gpt-oss-120b none | OpenAI | 1 | 6.5 | 2/4 | 32.8s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 1 | 8.3 | 3/4 | 28.5s |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 6.5 | 2/4 | 25.5s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 4 | 3.0 | 0/4 | 20.2s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 1 | 8.3 | 3/4 | 18.0s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 1 | 6.4 | 2/4 | 16.5s |
| #158 | GLM 4.7 Flash medium | Z.ai | 2 | 4.7 | 1/4 | 15.0s |
| #67 | MiniMax M3 medium | Minimax | 2 | 5.5 | 1/4 | 14.9s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 3 | 3.5 | 0/4 | 14.0s |