ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Grok 4.1 Fast 3.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#143	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 15.4s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.164 زمن الاستجابة (المتوسط) 1.98s
#169	Gemini 3.1 Flash Lite Preview high	Google	9.8	5.3	$2.310	2/2	64.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $2.310 زمن الاستجابة (المتوسط) 64.0s
#185	Ring-2.6-1T none	Inclusionai	9.8	4.8	$0.026	2/2	27.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 27.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 3.52s
#208	Grok Build 0.1 none	X AI	9.8	4.0	$0.547	2/2	7.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 7.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 5.06s
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 7.00s
#45	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $2.077 زمن الاستجابة (المتوسط) 2.78s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 6.14s
#52	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 12.4s
#57	GPT-5.4 Nano medium	OpenAI	9.8	7.5	$0.138	2/2	1.88s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 1.88s
#77	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 18.6s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 3.38s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.476 زمن الاستجابة (المتوسط) 2.61s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)