ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.5

أفضل نموذج

Laguna XS 2.1 3.8

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات18 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

210/210

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#83	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 1.33s
#87	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.544 زمن الاستجابة (المتوسط) 1.15s
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 893ms
#89	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.085 زمن الاستجابة (المتوسط) 1.58s
#91	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 6.39s
#97	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 6.96s
#103	Qwen3.5-27B none	Qwen	6.3	6.5	$0.090	1/2	1.03s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 1.03s
#111	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 2.82s
#112	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 2.58s
#115	Gemma 4 31B none	Google	6.5	6.2	$0.035	1/2	2.84s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.035 زمن الاستجابة (المتوسط) 2.84s
#117	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 2.04s
#124	Qwen3.6 Flash none	Qwen	6.3	6.1	$0.062	1/2	1.10s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 1.10s
#125	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 8.81s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	6.1	$0.122	1/2	1.17s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 1.17s
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 809ms

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)