ترتيب الذكاء العام x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الفشل

لم يتبع التعليمات78 إجابة خاطئة59 خطأ API12 انتهت المهلة4

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

78/78

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#12	Grok 4.5 high	X AI	1	4.7	$1.707	0/1	9.82s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.707 زمن الاستجابة (المتوسط) 9.82s
#13	GPT-5.3-Codex medium	OpenAI	1	4.6	$0.920	0/1	4.87s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.920 زمن الاستجابة (المتوسط) 4.87s
#18	GPT-5.4 medium	OpenAI	1	4.7	$1.533	0/1	4.92s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.533 زمن الاستجابة (المتوسط) 4.92s
#21	GPT-5.2 medium	OpenAI	1	3.7	$0.951	0/1	4.32s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 4.32s
#23	Claude Sonnet 5 medium	Anthropic	1	4.8	$0.922	0/1	4.32s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 4.32s
#25	Gemini 2.5 Flash medium	Google	1	4.8	$0.643	0/1	4.86s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.643 زمن الاستجابة (المتوسط) 4.86s
#26	GPT-5 Mini medium	OpenAI	1	4.5	$0.237	0/1	13.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 13.5s
#30	GPT-5.2 Chat none	OpenAI	1	4.4	$0.604	0/1	3.20s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 3.20s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	6.7	$0.234	0/1	18.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.234 زمن الاستجابة (المتوسط) 18.2s
#37	Qwen3.6 Plus medium	Qwen	1	5.1	$0.405	0/1	27.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.405 زمن الاستجابة (المتوسط) 27.1s
#42	GLM 5 medium	Z.ai	1	6.1	$0.307	0/1	14.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.307 زمن الاستجابة (المتوسط) 14.7s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.1	$0.042	0/1	25.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 25.2s
#47	MiniMax M3 medium	Minimax	1	5.1	$0.286	0/1	33.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 33.3s
#53	GPT-5.4 Nano medium	OpenAI	1	4.5	$0.138	0/1	4.15s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 4.15s
#54	GPT-5.3 Chat none	OpenAI	1	4.6	$0.571	0/1	1.99s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 1.99s

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

الذكاء العام: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية