ترتيب النماذج لفئة مجمّع

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في مجمّع، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة مجمّع

5.6

أفضل نموذج

Qwen3.6 35B A3B 3.0

أسباب الفشل

مع سبب الفشل استدعاء أداة غير صالح91 مع سبب الفشل إجابة خاطئة69 مع سبب الفشل لا توجد إجابة32 مع سبب الفشل خطأ API26 مع سبب الفشل انتهت المهلة5 مع سبب الفشل تنسيق إضافي1 مع سبب الفشل لم يتبع التعليمات1

216/216

الترتيب	النموذج	الشركة	درجة مجمّع	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#179	DeepSeek V3.2 none	DeepSeek	4.8	5.0	$0.054	0/2	113.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 113.5s
#141	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 113.1s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/2	111.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 111.9s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.4	6.1	$0.122	1/2	109.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 109.7s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	7.3	7.2	$0.482	1/2	106.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 106.7s
#49	DeepSeek V4 Flash high	DeepSeek	6.4	7.7	$0.041	1/2	104.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 104.1s
#29	GPT-5 Mini medium	OpenAI	7.3	8.1	$0.237	1/2	99.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 99.8s
#177	North Mini Code none	Cohere	3.2	5.1	$0.000	0/2	96.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 96.2s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	93.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $2.057 زمن الاستجابة (المتوسط) 93.7s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.5	7.2	$0.317	1/2	92.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.317 زمن الاستجابة (المتوسط) 92.4s
#81	Kimi K2.5 medium	Moonshot AI	6.7	7.0	$0.600	1/2	89.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 89.2s
#28	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.643	2/2	84.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.643 زمن الاستجابة (المتوسط) 84.5s
#4	Gemini 3.5 Flash high	Google	8.2	9.5	$1.976	1/2	84.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 84.1s
#196	MiniMax M2.5 medium	Minimax	3.7	4.6	$0.340	0/2	83.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 83.2s
#158	Qwen3.6 27B none	Qwen	3.2	5.5	$0.087	0/2	83.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 83.1s

ترتيب مجمّع

تصفية النماذج

أفضل النماذج حسب درجة مجمّع

درجة مجمّع مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)