AI BENCHY
Advertise here

إخفاقات الفئات في AI BENCHY

خاص بالمجال: إجابة خاطئة

خاص بالمجال
إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

15

إجمالي الإخفاقات

314

النموذج الأكثر تأثرًا

Qwen3.6 Max Preview 3
الترتيب النموذج الشركة عدد إجابة خاطئة درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#81 Mercury 2 medium Inception 3 2.9 0/3 6.48s
#87 Gemini 3.1 Flash Lite minimal Google 3 2.9 0/3 1.02s
#88 Qwen3.7 Plus none Qwen 3 3.0 0/3 868ms
#90 Gemini 3.1 Flash Lite none Google 3 2.9 0/3 762ms
#91 GPT-5.5 none OpenAI 3 2.9 0/3 1.31s
#98 GLM 5 none Z.ai 3 3.0 0/3 2.24s
#99 gpt-oss-120b medium OpenAI 3 2.9 0/3 50.9s
#102 Gemma 4 26B A4B none Google 3 3.6 0/3 2.49s
#106 Grok 4.20 Beta none X AI 3 3.0 0/3 611ms
#110 Seed-2.0-Lite none Bytedance Seed 3 3.6 0/3 1.33s
#112 GLM 5.1 none Z.ai 3 2.9 0/3 1.99s
#115 Qwen3.5-27B none Qwen 3 3.0 0/3 540ms
#119 Cobuddy medium Baidu 3 2.9 0/3 128.2s
#126 gpt-oss-120b none OpenAI 3 3.0 0/3 35.0s
#136 Elephant Alpha medium Openrouter 3 3.0 0/3 925ms

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية