ترتيب النماذج لفئة مجمّع

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في مجمّع، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة مجمّع

5.5

أفضل نموذج

Gemini 3 Flash Preview 10.0

أسباب الفشل

مع سبب الفشل استدعاء أداة غير صالح91 مع سبب الفشل إجابة خاطئة68 مع سبب الفشل لا توجد إجابة29 مع سبب الفشل خطأ API26 مع سبب الفشل انتهت المهلة5 مع سبب الفشل تنسيق إضافي1 مع سبب الفشل لم يتبع التعليمات1

210/210

الترتيب	النموذج	الشركة	درجة مجمّع	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	26.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.742 زمن الاستجابة (المتوسط) 26.7s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	14.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.971 زمن الاستجابة (المتوسط) 14.6s
#4	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	17.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.316 زمن الاستجابة (المتوسط) 17.6s
#5	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	25.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.234 زمن الاستجابة (المتوسط) 25.0s
#6	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	2/2	13.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.253 زمن الاستجابة (المتوسط) 13.7s
#7	Gemini 3.1 Pro Preview medium	Google	9.8	9.2	$1.361	2/2	40.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.361 زمن الاستجابة (المتوسط) 40.4s
#9	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	2/2	44.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 44.4s
#10	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	33.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $4.137 زمن الاستجابة (المتوسط) 33.5s
#12	Grok 4.5 high	X AI	10.0	8.9	$1.707	2/2	35.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.707 زمن الاستجابة (المتوسط) 35.6s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	26.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.920 زمن الاستجابة (المتوسط) 26.0s
#14	Claude Opus 4.8 medium	Anthropic	9.9	8.8	$1.931	2/2	54.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.931 زمن الاستجابة (المتوسط) 54.3s
#15	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	43.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.477 زمن الاستجابة (المتوسط) 43.4s
#18	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	29.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.533 زمن الاستجابة (المتوسط) 29.8s
#21	GPT-5.2 medium	OpenAI	10.0	8.4	$0.951	2/2	58.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 58.5s
#22	Grok 4.5 medium	X AI	10.0	8.3	$1.928	2/2	29.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.928 زمن الاستجابة (المتوسط) 29.0s

ترتيب مجمّع

تصفية النماذج

أفضل النماذج حسب درجة مجمّع

درجة مجمّع مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)