ترتيب حل الألغاز x تنسيق إضافي

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور تنسيق إضافي في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

LongCat 2.0 1

أسباب الفشل

إجابة خاطئة201 لم يتبع التعليمات90 خطأ API12 تنسيق إضافي8 انتهت المهلة5 لا توجد إجابة3

الفئات

حيل مضادة للذكاء الاصطناعي20 البرمجة18 خاص بالمجال17 حل الألغاز8 تحليل البيانات واستخراجها6 اتباع التعليمات3 مجمّع1

8/8

الترتيب	النموذج	الشركة	عدد تنسيق إضافي	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#111	LongCat 2.0 none	Meituan	1	4.0	$0.044	0/3	2.74s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 2.74s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 23.7s
#109	Mimo V2 PRO medium	Xiaomi	1	6.4	$0.333	1/3	5.08s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 5.08s
#112	Claude Sonnet 5 none	Anthropic	1	6.0	$0.548	1/3	3.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 3.22s
#159	GPT-5.6 Luna none	OpenAI	1	5.3	$0.142	1/3	790ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 790ms
#164	Inkling none	Thinkingmachines	1	5.6	$0.147	1/3	931ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 931ms
#63	Claude Sonnet 4.6 none	Anthropic	1	7.7	$0.661	2/3	2.53s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 2.53s
#66	Claude Opus 4.8 none	Anthropic	1	7.7	$1.166	2/3	2.74s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.166 زمن الاستجابة (المتوسط) 2.74s

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حل الألغاز: تنسيق إضافي

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية