AI BENCHY
Advertise here

إخفاقات AI BENCHY

إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

15

إجمالي الإخفاقات

1204

النموذج الأكثر تأثرًا

Gemini 3 Flash Preview 1
الترتيب النموذج الشركة عدد إجابة خاطئة النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#127 Grok 4.20 none X AI 10 5.4 6/18 1.11s
#145 Laguna M.1 none Poolside 10 4.8 4/19 2.89s
#90 Gemini 3.1 Flash Lite none Google 11 6.4 9/21 1.06s
#91 GPT-5.5 none OpenAI 11 6.4 10/21 1.89s
#109 GLM 5V Turbo none Z.ai 11 5.8 8/21 2.99s
#118 Qwen3.6 27B none Qwen 11 5.6 7/21 3.72s
#120 Mimo V2 PRO none Xiaomi 11 5.6 7/21 2.27s
#123 MiMo-V2.5-Pro none Xiaomi 11 5.5 6/21 1.78s
#124 Kimi K2.6 none Moonshot AI 11 5.5 7/21 13.3s
#95 Qwen3.5 Plus 2026-02-15 none Qwen 12 6.3 9/21 2.31s
#97 Gemini 2.5 Flash none Google 12 6.2 9/21 875ms
#98 GLM 5 none Z.ai 12 6.1 9/21 4.03s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 12 6.0 8/21 2.27s
#114 Qwen3.5 Plus 2026-04-20 none Qwen 12 5.7 7/21 4.39s
#115 Qwen3.5-27B none Qwen 12 5.7 7/21 1.68s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)