ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

421

النموذج الأكثر تأثرًا

Muse Spark 1.1 3

أسباب الفشل

إجابة خاطئة421 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

202/202

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#112	Gemini 3.1 Flash Lite Preview none	Google	2	5.3	$0.052	1/3	942ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	2	5.3	$0.073	1/3	1.17s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 1.17s
#118	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/3	3.28s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 3.28s
#119	MiMo-V2-Flash medium	Xiaomi	2	5.9	$0.043	1/3	96.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 96.0s
#124	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 495ms
#129	Inkling low	Thinkingmachines	2	5.3	$0.187	1/3	1.99s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 1.99s
#130	Qwen3.6 Flash none	Qwen	2	5.3	$0.062	1/3	1.11s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	5.3	$0.122	1/3	4.43s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 4.43s
#135	Nemotron 3 Ultra none	NVIDIA	2	5.3	$0.095	1/3	698ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 698ms
#136	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 170.5s
#137	Grok 4.20 Beta medium	X AI	2	5.3	$0.750	1/3	21.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 21.3s
#138	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	757ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.349 زمن الاستجابة (المتوسط) 757ms
#139	Gemini 3 PRO Preview medium	Google	2	5.3	$0.385	1/3	7.01s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 7.01s
#141	Hy3 preview high	Tencent	2	5.3	$0.048	1/3	109.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 109.0s
#143	North Mini Code medium	Cohere	2	5.3	$0.000	1/3	71.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 71.4s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية