ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Laguna XS 2.1 3.8

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 3.10s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.643 زمن الاستجابة (المتوسط) 2.62s
#29	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	2/2	11.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 11.6s
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 7.00s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 1.83s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 5.51s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.817 زمن الاستجابة (المتوسط) 4.26s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 6.17s
#37	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	2/2	7.66s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $3.112 زمن الاستجابة (المتوسط) 7.66s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.055 زمن الاستجابة (المتوسط) 2.14s
#39	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	2/2	7.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.234 زمن الاستجابة (المتوسط) 7.26s
#40	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.267 زمن الاستجابة (المتوسط) 16.1s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	7.54s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.405 زمن الاستجابة (المتوسط) 7.54s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 7.90s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 1.43s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)