AI BENCHY
Advertise here

إخفاقات AI BENCHY

إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

15

إجمالي الإخفاقات

1204

النموذج الأكثر تأثرًا

Kimi K2.5 5
الترتيب النموذج الشركة عدد إجابة خاطئة النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#154 Qwen3.5-9B none Qwen 14 4.6 4/21 1.89s
#91 GPT-5.5 none OpenAI 11 6.4 10/21 1.89s
#61 Gemini 3.1 Flash Lite low Google 9 7.2 12/21 1.89s
#123 MiMo-V2.5-Pro none Xiaomi 11 5.5 6/21 1.78s
#147 GPT-4o-mini none OpenAI 15 4.8 5/21 1.77s
#115 Qwen3.5-27B none Qwen 12 5.7 7/21 1.68s
#48 Gemini 3 Flash Preview none Google 8 7.4 13/21 1.65s
#157 Grok 4.1 Fast none X AI 13 4.4 3/19 1.62s
#128 Qwen3.6 Flash none Qwen 12 5.4 7/21 1.60s
#32 Gemini 3.5 Flash minimal Google 5 7.7 14/21 1.57s
#148 GPT-5.4 Nano none OpenAI 15 4.7 4/21 1.48s
#125 GPT-5.4 none OpenAI 13 5.5 7/21 1.42s
#87 Gemini 3.1 Flash Lite minimal Google 8 6.4 10/21 1.33s
#34 Qwen3.7 Max none Qwen 7 7.7 14/21 1.30s
#136 Elephant Alpha medium Openrouter 9 5.1 6/21 1.27s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)