ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Kimi K2.5 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 4.78s
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 4.63s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 4.30s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 4.28s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.777 زمن الاستجابة (المتوسط) 4.26s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.817 زمن الاستجابة (المتوسط) 4.26s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 4.26s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.18s
#86	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 4.12s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.742 زمن الاستجابة (المتوسط) 4.04s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.785 زمن الاستجابة (المتوسط) 3.94s
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 3.84s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.253 زمن الاستجابة (المتوسط) 3.74s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 3.74s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 3.52s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)