ترتيب النماذج لفئة مجمّع

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في مجمّع، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

متوسط درجة مجمّع

5.6

أفضل نموذج

Gemini 3.5 Flash 3.0

أسباب الفشل

مع سبب الفشل استدعاء أداة غير صالح91 مع سبب الفشل إجابة خاطئة69 مع سبب الفشل لا توجد إجابة32 مع سبب الفشل خطأ API26 مع سبب الفشل انتهت المهلة5 مع سبب الفشل تنسيق إضافي1 مع سبب الفشل لم يتبع التعليمات1

216/216

الترتيب	النموذج	الشركة	درجة مجمّع	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#31	Gemini 3.5 Flash-Lite high	Google	7.3	8.1	$0.584	1/2	29.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.584 زمن الاستجابة (المتوسط) 29.2s
#27	Muse Spark 1.1 low	Meta	6.6	8.3	$0.647	1/2	29.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 29.4s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	29.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.533 زمن الاستجابة (المتوسط) 29.8s
#121	Gemma 4 31B none	Google	3.8	6.2	$0.021	0/2	30.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 30.0s
#14	Gemini 3.5 Flash low	Google	8.2	8.9	$0.433	1/2	30.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 30.0s
#190	Hunter Alpha medium	OpenRouter	2.3	4.7	$0.000	0/1	30.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 30.5s
#172	Qwen3 Coder Next none	Qwen	3.0	5.1	$0.025	0/2	30.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 30.9s
#118	Claude Sonnet 5 none	Anthropic	6.5	6.3	$0.548	1/2	31.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 31.4s
#57	GPT-5.4 Nano medium	OpenAI	9.9	7.5	$0.138	2/2	32.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 32.2s
#173	Mistral Small 4 medium	Mistral	3.0	5.1	$0.096	0/2	32.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 32.4s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	33.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $4.137 زمن الاستجابة (المتوسط) 33.5s
#181	Qwen3.6 Plus Preview medium	Qwen	5.0	4.9	$0.000	1/1	35.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 35.0s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	2/2	35.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.707 زمن الاستجابة (المتوسط) 35.6s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/2	35.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 35.7s
#205	Hy3 preview none	Tencent	1.5	4.0	$0.003	0/1	35.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 35.8s

ترتيب مجمّع

تصفية النماذج

أفضل النماذج حسب درجة مجمّع

درجة مجمّع مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)