AI BENCHY
قارن الرسوم البيانية المنهجية
❤️ Made by XCS
Your ad here

إخفاقات AI BENCHY

إخفاقات تنسيق إضافي

اكتشف أي نماذج الذكاء الاصطناعي تواجه تنسيق إضافي أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

6

إجمالي الإخفاقات

13

النموذج الأكثر تأثرًا

MiMo-V2-Flash 1
الترتيب النموذج الشركة عدد تنسيق إضافي متوسط الدرجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#54 MiMo-V2-Flash none Xiaomi 1 2.9 3/16 2.97s
#25 Claude Sonnet 4.6 none Anthropic 3 6.8 10/16 5.57s
#11 Claude Sonnet 4.6 medium Anthropic 2 7.7 12/16 11.2s
#48 Qwen3 Coder Next none Qwen 1 4.0 4/16 11.7s
#33 DeepSeek V3.2 none DeepSeek 2 5.5 7/16 12.9s
#26 Claude Opus 4.6 medium Anthropic 4 6.6 10/16 22.9s

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل متوسط الدرجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)