ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

412

النموذج الأكثر تأثرًا

Muse Spark 1.1 3

أسباب الفشل

إجابة خاطئة412 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

198/198

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#16	Muse Spark 1.1 medium	Meta	3	3.5	$1.357	0/3	71.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.357 زمن الاستجابة (المتوسط) 71.4s
#19	Qwen3.6 Max Preview medium	Qwen	3	2.9	$1.143	0/3	95.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.143 زمن الاستجابة (المتوسط) 95.9s
#20	Grok 4.5 low	X AI	3	3.0	$0.935	0/3	72.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.935 زمن الاستجابة (المتوسط) 72.6s
#22	Grok 4.5 medium	X AI	3	2.9	$1.928	0/3	198.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.928 زمن الاستجابة (المتوسط) 198.9s
#24	Muse Spark 1.1 low	Meta	3	2.9	$0.647	0/3	29.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 29.7s
#36	Qwen3.7 Plus medium	Qwen	3	3.6	$0.267	0/3	45.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.267 زمن الاستجابة (المتوسط) 45.3s
#37	Qwen3.6 Plus medium	Qwen	3	2.9	$0.405	0/3	29.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.405 زمن الاستجابة (المتوسط) 29.6s
#45	DeepSeek V4 Flash high	DeepSeek	3	4.1	$0.042	0/3	100.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 100.3s
#51	Nemotron 3 Ultra medium	NVIDIA	3	3.5	$0.774	0/3	24.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.774 زمن الاستجابة (المتوسط) 24.9s
#54	GPT-5.3 Chat none	OpenAI	3	3.5	$0.571	0/3	13.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 13.0s
#56	GPT-5.4 Mini medium	OpenAI	3	4.1	$0.756	0/3	65.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 65.3s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	3	4.1	$0.387	0/3	17.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 17.5s
#64	Gemini 3.1 Flash Lite Preview medium	Google	3	3.0	$0.115	0/3	4.21s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.115 زمن الاستجابة (المتوسط) 4.21s
#65	Gemini 3.1 Flash Lite medium	Google	3	2.9	$0.117	0/3	3.16s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 3.16s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	3	2.9	$0.482	0/3	35.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 35.3s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية