ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.935 زمن الاستجابة (المتوسط) 2.80s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.928 زمن الاستجابة (المتوسط) 6.06s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.643 زمن الاستجابة (المتوسط) 2.62s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 1.83s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 5.51s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 6.17s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.774 زمن الاستجابة (المتوسط) 6.35s
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 3.51s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 2.13s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.454 زمن الاستجابة (المتوسط) 1.58s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.777 زمن الاستجابة (المتوسط) 4.26s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.207 زمن الاستجابة (المتوسط) 1.52s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	2/2	869ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.145 زمن الاستجابة (المتوسط) 869ms
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 3.84s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 1.40s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)