AI BENCHY
Advertise here

إخفاقات AI BENCHY

إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

15

إجمالي الإخفاقات

1204

النموذج الأكثر تأثرًا

Mercury 2 16
الترتيب النموذج الشركة عدد إجابة خاطئة النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#160 LFM2-24B-A2B none Liquid 9 4.2 2/16 782ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 9 4.1 2/19 728ms
#36 Qwen3.5 Plus 2026-04-20 medium Qwen 8 7.6 13/21 46.4s
#39 Qwen3.6 Flash medium Qwen 8 7.5 12/21 19.2s
#48 Gemini 3 Flash Preview none Google 8 7.4 13/21 1.65s
#57 Step 3.7 Flash low Stepfun 8 7.3 12/21 15.7s
#70 GPT-5.4 Nano medium OpenAI 8 7.0 11/21 12.0s
#81 Mercury 2 medium Inception 8 6.6 10/21 2.24s
#85 Gemma 4 31B none Google 8 6.5 10/21 4.05s
#87 Gemini 3.1 Flash Lite minimal Google 8 6.4 10/21 1.33s
#126 gpt-oss-120b none OpenAI 8 5.4 6/19 21.6s
#146 Laguna Xs.2 none Poolside 8 4.8 5/19 806ms
#156 Hy3 preview none Tencent 8 4.4 4/21 12.9s
#34 Qwen3.7 Max none Qwen 7 7.7 14/21 1.30s
#40 Gemini 3.1 Flash Lite Preview medium Google 7 7.5 13/21 3.96s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)