ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.5

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات18 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

210/210

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#31	GLM 5.2 high	Z.ai	10.0	8.0	$0.970	2/2	4.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.970 زمن الاستجابة (المتوسط) 4.26s
#33	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	2/2	7.66s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $3.112 زمن الاستجابة (المتوسط) 7.66s
#34	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.055 زمن الاستجابة (المتوسط) 2.14s
#35	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	2/2	7.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.234 زمن الاستجابة (المتوسط) 7.26s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.267 زمن الاستجابة (المتوسط) 16.1s
#37	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	7.54s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.405 زمن الاستجابة (المتوسط) 7.54s
#39	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 1.43s
#40	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $2.057 زمن الاستجابة (المتوسط) 2.61s
#42	GLM 5 medium	Z.ai	10.0	7.7	$0.307	2/2	7.25s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.307 زمن الاستجابة (المتوسط) 7.25s
#43	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $3.059 زمن الاستجابة (المتوسط) 2.43s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	2/2	15.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 15.4s
#49	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 5.38s
#55	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	2/2	1.48s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 1.48s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	2/2	31.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.437 زمن الاستجابة (المتوسط) 31.9s
#58	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	2/2	19.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 19.7s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)