ترتيب النماذج لفئة مجمّع

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في مجمّع، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة مجمّع

5.6

أفضل نموذج

Gemini 3 PRO Preview 1.5

أسباب الفشل

مع سبب الفشل استدعاء أداة غير صالح91 مع سبب الفشل إجابة خاطئة69 مع سبب الفشل لا توجد إجابة32 مع سبب الفشل خطأ API26 مع سبب الفشل انتهت المهلة5 مع سبب الفشل تنسيق إضافي1 مع سبب الفشل لم يتبع التعليمات1

216/216

الترتيب	النموذج	الشركة	درجة مجمّع	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#69	Gemini 3.1 Flash Lite medium	Google	7.2	7.3	$0.117	1/2	18.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 18.5s
#26	Claude Sonnet 5 medium	Anthropic	7.3	8.3	$0.922	1/2	51.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 51.9s
#22	Qwen3.6 Max Preview medium	Qwen	7.3	8.4	$1.143	1/2	177.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.143 زمن الاستجابة (المتوسط) 177.5s
#29	GPT-5 Mini medium	OpenAI	7.3	8.1	$0.237	1/2	99.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 99.8s
#31	Gemini 3.5 Flash-Lite high	Google	7.3	8.1	$0.584	1/2	29.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.584 زمن الاستجابة (المتوسط) 29.2s
#32	Inkling high	Thinkingmachines	7.3	8.0	$1.006	1/2	63.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 63.8s
#33	Step 3.7 Flash medium	Stepfun	7.3	8.0	$0.515	1/2	80.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 80.9s
#34	GPT-5.2 Chat none	OpenAI	7.3	8.0	$0.604	1/2	13.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 13.9s
#36	Inkling medium	Thinkingmachines	7.3	8.0	$0.391	1/2	41.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 41.2s
#56	Kimi K2.7 Code medium	Moonshot AI	7.3	7.5	$0.740	1/2	66.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 66.0s
#62	Qwen3.5-27B medium	Qwen	7.3	7.4	$1.627	1/2	595.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 595.2s
#64	LongCat 2.0 medium	Meituan	7.3	7.4	$0.478	1/2	151.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 151.0s
#71	Step 3.7 Flash low	Stepfun	7.3	7.3	$0.454	1/2	66.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.454 زمن الاستجابة (المتوسط) 66.2s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	7.3	7.2	$0.482	1/2	106.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 106.7s
#80	DeepSeek V3.2 medium	DeepSeek	7.3	7.0	$0.078	1/2	79.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 79.9s

ترتيب مجمّع

تصفية النماذج

أفضل النماذج حسب درجة مجمّع

درجة مجمّع مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)