ترتيب الذكاء العام x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الفشل

لم يتبع التعليمات78 إجابة خاطئة59 خطأ API12 انتهت المهلة4

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

78/78

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#104	Gemini 3.1 Flash Lite Preview low	Google	1	4.0	$0.646	0/1	1.54s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 1.54s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 741ms
#108	Ring-2.6-1T medium	Inclusionai	1	4.1	$0.103	0/1	58.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 58.3s
#112	Claude Sonnet 5 none	Anthropic	1	4.7	$0.548	0/1	2.81s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 2.81s
#113	MiMo-V2-Flash medium	Xiaomi	1	4.0	$0.043	0/1	4.20s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 4.20s
#114	Qwen3.5-Flash medium	Qwen	1	6.1	$0.139	0/1	40.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 40.1s
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 791ms
#121	gpt-oss-120b medium	OpenAI	1	4.3	$0.019	0/1	7.90s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 7.90s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	4.8	$0.122	0/1	1.41s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 1.41s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 1.19s
#128	GPT-5 Nano medium	OpenAI	1	4.1	$0.114	0/1	17.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 17.5s
#130	Step 3.5 Flash medium	Stepfun	1	5.5	$0.108	0/1	22.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 22.4s
#136	GPT-5.4 Mini none	OpenAI	1	4.8	$0.095	0/1	1.82s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 1.82s
#138	Kimi K2.6 none	Moonshot AI	1	5.4	$0.184	0/1	1.55s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 1.55s
#140	Nemotron 3 Super medium	NVIDIA	1	4.1	$0.050	0/1	6.91s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.050 زمن الاستجابة (المتوسط) 6.91s

←

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

الذكاء العام: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية