ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Laguna XS 2.1 3.8

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 2.13s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	2/2	31.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.437 زمن الاستجابة (المتوسط) 31.9s
#62	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	2/2	19.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 19.7s
#63	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.197 زمن الاستجابة (المتوسط) 943ms
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.177 زمن الاستجابة (المتوسط) 7.02s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 2.53s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	2/2	1.91s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.115 زمن الاستجابة (المتوسط) 1.91s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 2.59s
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.166 زمن الاستجابة (المتوسط) 1.37s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.454 زمن الاستجابة (المتوسط) 1.58s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 12.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 2.67s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	2/2	20.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.317 زمن الاستجابة (المتوسط) 20.2s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	2/2	9.88s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.046 زمن الاستجابة (المتوسط) 9.88s
#77	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 18.6s

←

1 9 10 11 15

→

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)