ترتيب الذكاء العام x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Grok 4.5 1

أسباب الفشل

لم يتبع التعليمات78 إجابة خاطئة62 خطأ API12 انتهت المهلة4

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات19 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

78/78

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#15	Grok 4.5 high	X AI	1	4.7	$1.707	0/1	9.82s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.707 زمن الاستجابة (المتوسط) 9.82s
#16	GPT-5.3-Codex medium	OpenAI	1	4.6	$0.920	0/1	4.87s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.920 زمن الاستجابة (المتوسط) 4.87s
#21	GPT-5.4 medium	OpenAI	1	4.7	$1.533	0/1	4.92s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.533 زمن الاستجابة (المتوسط) 4.92s
#24	GPT-5.2 medium	OpenAI	1	3.7	$0.951	0/1	4.32s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 4.32s
#26	Claude Sonnet 5 medium	Anthropic	1	4.8	$0.922	0/1	4.32s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 4.32s
#28	Gemini 2.5 Flash medium	Google	1	4.8	$0.643	0/1	4.86s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.643 زمن الاستجابة (المتوسط) 4.86s
#29	GPT-5 Mini medium	OpenAI	1	4.5	$0.237	0/1	13.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 13.5s
#34	GPT-5.2 Chat none	OpenAI	1	4.4	$0.604	0/1	3.20s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 3.20s
#39	Seed-2.0-Lite medium	Bytedance Seed	1	6.7	$0.234	0/1	18.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.234 زمن الاستجابة (المتوسط) 18.2s
#41	Qwen3.6 Plus medium	Qwen	1	5.1	$0.405	0/1	27.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.405 زمن الاستجابة (المتوسط) 27.1s
#46	GLM 5 medium	Z.ai	1	6.1	$0.307	0/1	14.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.307 زمن الاستجابة (المتوسط) 14.7s
#49	DeepSeek V4 Flash high	DeepSeek	1	6.1	$0.041	0/1	25.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 25.2s
#51	MiniMax M3 medium	Minimax	1	5.1	$0.286	0/1	33.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 33.3s
#57	GPT-5.4 Nano medium	OpenAI	1	4.5	$0.138	0/1	4.15s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 4.15s
#58	GPT-5.3 Chat none	OpenAI	1	4.6	$0.571	0/1	1.99s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 1.99s

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

الذكاء العام: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية