ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Kimi K2.5 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 3.51s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.40s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 3.38s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	3.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $4.137 زمن الاستجابة (المتوسط) 3.36s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 3.36s
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 3.35s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	2/2	3.32s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.931 زمن الاستجابة (المتوسط) 3.32s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 3.26s
#24	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 3.12s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	3.11s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.533 زمن الاستجابة (المتوسط) 3.11s
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 3.10s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	3.04s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.920 زمن الاستجابة (المتوسط) 3.04s
#200	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 2.97s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.84s
#202	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.82s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)