AI BENCHY
Advertise here

إخفاقات الفئات في AI BENCHY

حل الألغاز: تنسيق إضافي

حل الألغاز
تنسيق إضافي

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور تنسيق إضافي في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

5

إجمالي الإخفاقات

5

النموذج الأكثر تأثرًا

DeepSeek V4 Flash 1
الترتيب النموذج الشركة عدد تنسيق إضافي درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#139 DeepSeek V4 Flash none DeepSeek 1 3.1 0/3 23.7s
#113 DeepSeek V4 Pro none DeepSeek 1 7.6 2/3 16.0s
#51 Mimo V2 PRO medium Xiaomi 1 6.4 1/3 5.08s
#68 Claude Opus 4.8 none Anthropic 1 7.7 2/3 2.74s
#77 Claude Sonnet 4.6 none Anthropic 1 7.7 2/3 2.53s

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية