ترتيب الذكاء العام x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الفشل

لم يتبع التعليمات78 إجابة خاطئة59 خطأ API12 انتهت المهلة4

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

78/78

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.247 زمن الاستجابة (المتوسط) 1.12s
#143	Gemini 3.1 Flash Lite high	Google	1	5.0	$2.044	0/1	45.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $2.044 زمن الاستجابة (المتوسط) 45.7s
#145	GLM 5V Turbo none	Z.ai	1	4.6	$0.052	0/1	2.22s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 2.22s
#146	Owl Alpha medium	Openrouter	1	4.3	$0.000	0/1	58.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 58.6s
#147	Mimo V2 PRO none	Xiaomi	1	4.3	$0.045	0/1	2.44s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 2.44s
#148	Owl Alpha none	Openrouter	1	4.3	$0.000	0/1	4.61s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.61s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.0	$0.048	0/1	9.81s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 9.81s
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 1.07s
#156	Gemma 4 26B A4B none	Google	1	4.0	$0.015	0/1	3.54s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 3.54s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	5.0	$0.041	0/1	10.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 10.1s
#162	Ling-2.6-1T none	Inclusionai	1	5.0	$0.016	0/1	20.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 20.3s
#167	Mistral Small 4 medium	Mistral	1	4.8	$0.096	0/1	2.05s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 2.05s
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 552ms
#170	GLM 5 Turbo none	Z.ai	1	4.2	$0.047	0/1	2.18s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 2.18s
#172	MiniMax M2.7 medium	Minimax	1	3.9	$0.163	0/1	38.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 38.7s

←

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

الذكاء العام: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية