ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Kimi K2.5 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	2/2	6.16s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 6.16s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 6.14s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.928 زمن الاستجابة (المتوسط) 6.06s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	2/2	6.05s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 6.05s
#20	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	2/2	5.90s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $3.478 زمن الاستجابة (المتوسط) 5.90s
#210	Qwen3.5-9B medium	Qwen	6.5	3.8	$0.036	1/2	5.75s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 5.75s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 5.52s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 5.51s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 5.42s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 5.39s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 5.38s
#168	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 5.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 5.06s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 4.99s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 4.89s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)