ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Grok 4.1 Fast 3.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 1.51s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 1.64s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 5.52s
#194	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 11.6s
#199	Elephant Alpha none	Openrouter	9.8	4.3	$0.000	2/2	1.03s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.03s
#201	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 987ms
#1	Gemini 3.6 Flash medium	Google	9.9	9.9	$0.831	2/2	2.77s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.831 زمن الاستجابة (المتوسط) 2.77s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.785 زمن الاستجابة (المتوسط) 3.94s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.253 زمن الاستجابة (المتوسط) 3.74s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 2.70s
#14	Gemini 3.5 Flash low	Google	9.9	8.9	$0.433	2/2	1.86s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 1.86s
#24	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 3.12s
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 3.10s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 7.90s
#48	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 1.79s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)