ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
إجمالي الاختبارات 21 الاختبارات الخاطئة 13 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.44s
#197	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 1.19s
#198	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
إجمالي الاختبارات 19 الاختبارات الخاطئة 15 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 2.89s
#203	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 1.11s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 24.0s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.145 زمن الاستجابة (المتوسط) 2.25s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.369 زمن الاستجابة (المتوسط) 6.01s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 16.3s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 5.34s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 21.9s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 54.9s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 137.1s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 15.9s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 10.7s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
إجمالي الاختبارات 21 الاختبارات الخاطئة 14 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 39.9s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)