ترتيب النماذج لفئة مجمّع

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في مجمّع، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة مجمّع

5.6

أفضل نموذج

Gemini 3.6 Flash 10.0

أسباب الفشل

مع سبب الفشل استدعاء أداة غير صالح91 مع سبب الفشل إجابة خاطئة69 مع سبب الفشل لا توجد إجابة32 مع سبب الفشل خطأ API26 مع سبب الفشل انتهت المهلة5 مع سبب الفشل تنسيق إضافي1 مع سبب الفشل لم يتبع التعليمات1

216/216

الترتيب	النموذج	الشركة	درجة مجمّع	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#80	DeepSeek V3.2 medium	DeepSeek	7.3	7.0	$0.078	1/2	79.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 79.9s
#81	Kimi K2.5 medium	Moonshot AI	6.7	7.0	$0.600	1/2	89.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 89.2s
#82	Mercury 2 medium	Inception	6.7	7.0	$0.093	1/2	7.84s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 7.84s
#84	Seed-2.0-Mini medium	Bytedance Seed	7.3	7.0	$0.101	1/2	282.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.101 زمن الاستجابة (المتوسط) 282.3s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	6.4	6.9	$0.467	1/2	135.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 135.7s
#86	DeepSeek V4 Pro none	DeepSeek	7.9	6.9	$0.096	1/2	71.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 71.6s
#87	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	1/2	8.37s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 8.37s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.9	6.9	$0.187	1/2	125.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 125.4s
#89	Qwen3.6 Flash medium	Qwen	6.5	6.9	$0.738	1/2	299.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 299.2s
#90	Step 3.7 Flash high	Stepfun	8.7	6.9	$1.207	1/2	41.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.207 زمن الاستجابة (المتوسط) 41.2s
#91	GPT-5.5 none	OpenAI	6.5	6.9	$0.544	1/2	8.90s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.544 زمن الاستجابة (المتوسط) 8.90s
#95	Gemini 3.5 Flash-Lite low	Google	6.3	6.7	$0.145	1/2	8.96s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.145 زمن الاستجابة (المتوسط) 8.96s
#100	Gemma 4 26B A4B medium	Google	6.3	6.6	$0.089	1/2	492.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.089 زمن الاستجابة (المتوسط) 492.9s
#101	GLM 5.2 none	Z.ai	6.9	6.6	$0.128	1/2	50.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 50.2s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 61.6s

ترتيب مجمّع

تصفية النماذج

أفضل النماذج حسب درجة مجمّع

درجة مجمّع مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)