ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Kimi K2.5 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#29	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	2/2	11.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 11.6s
#152	Owl Alpha medium	Openrouter	6.5	5.6	$0.000	1/2	10.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 10.2s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	2/2	9.88s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.046 زمن الاستجابة (المتوسط) 9.88s
#10	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	2/2	9.56s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.361 زمن الاستجابة (المتوسط) 9.56s
#215	Step 3.5 Flash none	Stepfun	5.0	2.3	$0.020	1/1	9.30s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 9.30s
#131	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 8.81s
#50	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 8.73s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 7.90s
#30	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 7.81s
#172	Qwen3 Coder Next none	Qwen	6.3	5.1	$0.025	1/2	7.78s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 7.78s
#37	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	2/2	7.66s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $3.112 زمن الاستجابة (المتوسط) 7.66s
#127	gpt-oss-120b medium	OpenAI	9.9	6.1	$0.019	2/2	7.63s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 7.63s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	7.54s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.405 زمن الاستجابة (المتوسط) 7.54s
#94	Qwen3.6 35B A3B medium	Qwen	10.0	6.7	$0.746	2/2	7.50s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.746 زمن الاستجابة (المتوسط) 7.50s
#193	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 7.49s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)