ترتيب اتباع التعليمات x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في اتباع التعليمات، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

North Mini Code 1

أسباب الفشل

إجابة خاطئة61 لم يتبع التعليمات18 تنسيق إضافي3 لا توجد إجابة2 انتهت المهلة1 خطأ API1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

61/61

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#171	North Mini Code none	Cohere	1	6.5	$0.000	1/2	30.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 30.7s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 12.8s
#146	Owl Alpha medium	Openrouter	1	6.5	$0.000	1/2	10.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 10.2s
#125	Qwen3.5-Flash none	Qwen	1	6.3	$0.073	1/2	8.81s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 8.81s
#166	Qwen3 Coder Next none	Qwen	1	6.3	$0.025	1/2	7.78s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 7.78s
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	1/2	7.49s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 7.49s
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.535 زمن الاستجابة (المتوسط) 7.47s
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 7.38s
#97	LongCat 2.0 high	Meituan	1	6.5	$0.469	1/2	6.96s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 6.96s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 6.39s
#162	Ling-2.6-1T none	Inclusionai	1	6.4	$0.016	1/2	5.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 5.36s
#157	Mimo V2 Omni none	Xiaomi	1	6.5	$0.021	1/2	4.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 4.26s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 4.12s
#194	GLM 4.7 Flash medium	Z.ai	1	6.2	$0.166	1/2	2.97s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 2.97s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/2	2.84s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.035 زمن الاستجابة (المتوسط) 2.84s

1 2 3 4 5

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

اتباع التعليمات: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية