ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Granite 4.1 8B 3.6

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 3.35s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 3.36s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	3.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $4.137 زمن الاستجابة (المتوسط) 3.36s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 3.38s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.40s
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 3.51s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 3.52s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 3.74s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.253 زمن الاستجابة (المتوسط) 3.74s
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 3.84s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.785 زمن الاستجابة (المتوسط) 3.94s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.742 زمن الاستجابة (المتوسط) 4.04s
#86	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 4.12s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.18s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 4.26s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)