ترتيب حل الألغاز x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

GPT-5.4 Nano 1

أسباب الفشل

إجابة خاطئة201 لم يتبع التعليمات90 خطأ API12 تنسيق إضافي8 انتهت المهلة5 لا توجد إجابة3

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

86/86

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#53	GPT-5.4 Nano medium	OpenAI	1	4.1	$0.138	0/3	3.79s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 3.79s
#91	LongCat 2.0 low	Meituan	1	3.1	$0.391	0/3	8.15s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 8.15s
#97	LongCat 2.0 high	Meituan	1	3.1	$0.469	0/3	9.18s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 9.18s
#124	Qwen3.6 Flash none	Qwen	1	3.5	$0.062	0/3	1.21s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 1.21s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.7	$0.106	0/3	1.35s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 1.35s
#138	Kimi K2.6 none	Moonshot AI	1	3.1	$0.184	0/3	1.40s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.050	0/3	3.15s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.050 زمن الاستجابة (المتوسط) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.247 زمن الاستجابة (المتوسط) 1.00s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 23.7s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	3.1	$0.041	0/3	1.57s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 1.57s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 1.07s
#162	Ling-2.6-1T none	Inclusionai	1	3.1	$0.016	0/3	5.36s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 5.36s
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 399ms
#167	Mistral Small 4 medium	Mistral	1	3.4	$0.096	0/3	2.17s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 2.17s
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 621ms

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حل الألغاز: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية