ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Gemini 3.6 Flash 9.9

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#127	gpt-oss-120b medium	OpenAI	9.9	6.1	$0.019	2/2	7.63s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 7.63s
#128	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 859ms
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 1.81s
#134	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 15.6s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 1.46s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 4.89s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 3.26s
#141	Hy3 preview high	Tencent	10.0	5.9	$0.048	2/2	34.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 34.4s
#143	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 15.4s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 1.48s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 1.51s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 1.50s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.164 زمن الاستجابة (المتوسط) 1.98s
#159	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 16.0s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 1.64s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)