ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Gemini 3.6 Flash 1

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#81	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 99.0s
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 2.65s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 32.2s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 9 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 22.2s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
إجمالي الاختبارات 21 الاختبارات الخاطئة 9 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 20.1s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 11 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 41.2s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.055 زمن الاستجابة (المتوسط) 52.0s
#185	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 55.1s
#23	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $0.935 زمن الاستجابة (المتوسط) 15.6s
#25	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $1.928 زمن الاستجابة (المتوسط) 61.7s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 11.5s
#28	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 7 إجمالي التكلفة $0.643 زمن الاستجابة (المتوسط) 21.2s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.584 زمن الاستجابة (المتوسط) 9.48s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 7.65s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 49.7s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)