ترتيب النماذج لفئة مجمّع

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في مجمّع، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

متوسط درجة مجمّع

5.5

أفضل نموذج

Muse Spark 1.1 5.9

أسباب الفشل

مع سبب الفشل استدعاء أداة غير صالح91 مع سبب الفشل إجابة خاطئة68 مع سبب الفشل لا توجد إجابة29 مع سبب الفشل خطأ API26 مع سبب الفشل انتهت المهلة5 مع سبب الفشل تنسيق إضافي1 مع سبب الفشل لم يتبع التعليمات1

210/210

الترتيب	النموذج	الشركة	درجة مجمّع	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#116	Seed-2.0-Lite none	Bytedance Seed	3.0	6.2	$0.066	0/2	25.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.066 زمن الاستجابة (المتوسط) 25.6s
#117	GPT-5.6 Luna low	OpenAI	2.8	6.2	$0.249	0/2	13.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 13.7s
#118	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 61.2s
#119	Qwen3.5-35B-A3B medium	Qwen	3.8	6.2	$0.837	0/2	512.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 512.8s
#120	Gemini 3.1 Flash Lite minimal	Google	3.0	6.1	$0.047	0/2	7.75s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	3.0	6.1	$0.046	0/2	9.49s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 9.49s
#123	Inkling low	Thinkingmachines	2.9	6.1	$0.187	0/2	22.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 22.7s
#124	Qwen3.6 Flash none	Qwen	3.8	6.1	$0.062	0/2	26.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 26.5s
#125	Qwen3.5-Flash none	Qwen	2.9	6.1	$0.073	0/2	243.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 243.6s
#127	Qwen3.5-35B-A3B none	Qwen	3.8	6.1	$0.106	0/2	128.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 128.3s
#129	Nemotron 3 Ultra none	NVIDIA	3.0	6.1	$0.095	0/2	21.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 21.1s
#132	GPT-5.6 Terra none	OpenAI	2.9	6.0	$0.349	0/2	7.02s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.349 زمن الاستجابة (المتوسط) 7.02s
#133	Gemini 3 PRO Preview medium	Google	1.5	6.0	$0.385	0/1	10.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 10.4s
#137	North Mini Code medium	Cohere	2.9	5.9	$0.000	0/2	554.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 554.9s
#138	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 77.8s

ترتيب مجمّع

تصفية النماذج

أفضل النماذج حسب درجة مجمّع

درجة مجمّع مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)