ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

421

النموذج الأكثر تأثرًا

Muse Spark 1.1 3

أسباب الفشل

إجابة خاطئة421 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

202/202

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 489ms
#5	GPT-5.6 Sol low	OpenAI	2	5.3	$0.971	1/3	29.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.971 زمن الاستجابة (المتوسط) 29.1s
#7	GPT-5.6 Sol medium	OpenAI	2	5.9	$1.316	1/3	47.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.316 زمن الاستجابة (المتوسط) 47.9s
#8	GPT-5.6 Sol high	OpenAI	2	5.3	$1.234	1/3	39.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.234 زمن الاستجابة (المتوسط) 39.5s
#9	GPT-5.5 low	OpenAI	2	5.3	$1.253	1/3	28.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.253 زمن الاستجابة (المتوسط) 28.1s
#11	Qwen3.7 Max medium	Qwen	2	5.9	$1.116	1/3	24.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.116 زمن الاستجابة (المتوسط) 24.9s
#13	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $4.137 زمن الاستجابة (المتوسط) 164.1s
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.707 زمن الاستجابة (المتوسط) 332.1s
#16	GPT-5.3-Codex medium	OpenAI	2	5.9	$0.920	1/3	64.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.920 زمن الاستجابة (المتوسط) 64.3s
#17	Claude Opus 4.8 medium	Anthropic	2	5.3	$1.931	1/3	14.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.931 زمن الاستجابة (المتوسط) 14.6s
#20	Claude Fable 5 medium	Anthropic	2	5.3	$3.478	1/3	53.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $3.478 زمن الاستجابة (المتوسط) 53.4s
#21	GPT-5.4 medium	OpenAI	2	5.3	$1.533	1/3	74.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.533 زمن الاستجابة (المتوسط) 74.3s
#28	Gemini 2.5 Flash medium	Google	2	5.9	$0.643	1/3	37.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.643 زمن الاستجابة (المتوسط) 37.3s
#29	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 44.6s
#30	Muse Spark 1.1 high	Meta	2	3.5	$1.694	0/3	67.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 67.4s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية