ترتيب حل الألغاز x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الفشل

إجابة خاطئة201 لم يتبع التعليمات90 خطأ API12 تنسيق إضافي8 انتهت المهلة5 لا توجد إجابة3

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

86/86

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#103	Qwen3.5-27B none	Qwen	1	6.7	$0.090	1/3	1.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 1.38s
#108	Ring-2.6-1T medium	Inclusionai	1	5.9	$0.103	1/3	20.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 20.7s
#109	Mimo V2 PRO medium	Xiaomi	1	6.4	$0.333	1/3	5.08s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 5.08s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/3	4.23s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.035 زمن الاستجابة (المتوسط) 4.23s
#121	gpt-oss-120b medium	OpenAI	1	5.3	$0.019	1/3	21.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 21.7s
#122	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 720ms
#123	Inkling low	Thinkingmachines	1	6.4	$0.187	1/3	2.97s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 2.97s
#124	Qwen3.6 Flash none	Qwen	1	3.5	$0.062	0/3	1.21s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 1.21s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.7	$0.106	0/3	1.35s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 1.35s
#128	GPT-5 Nano medium	OpenAI	1	5.3	$0.114	1/3	20.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 20.6s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.9	$0.095	1/3	1.06s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 1.06s
#130	Step 3.5 Flash medium	Stepfun	1	5.3	$0.108	1/3	7.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 7.22s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	1/3	2.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 2.38s
#136	GPT-5.4 Mini none	OpenAI	1	5.4	$0.095	1/3	836ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 836ms
#138	Kimi K2.6 none	Moonshot AI	1	3.1	$0.184	0/3	1.40s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 1.40s

←

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حل الألغاز: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية