ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.5

أفضل نموذج

Grok 4.1 Fast 3.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات18 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

210/210

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 685ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 822ms
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 344ms
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 364ms
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 12.8s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 541ms
#209	Step 3.5 Flash none	Stepfun	5.0	2.3	$0.020	1/1	9.30s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 9.30s
#87	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.544 زمن الاستجابة (المتوسط) 1.15s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	6.1	$0.122	1/2	1.17s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 1.17s
#161	Qwen3.6 35B A3B none	Qwen	6.2	5.3	$0.061	1/2	1.86s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 1.86s
#194	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 2.97s
#152	Qwen3.6 27B none	Qwen	6.2	5.5	$0.087	1/2	1.92s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 1.92s
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 929ms
#103	Qwen3.5-27B none	Qwen	6.3	6.5	$0.090	1/2	1.03s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 1.03s
#124	Qwen3.6 Flash none	Qwen	6.3	6.1	$0.062	1/2	1.10s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 1.10s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)