ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

إجمالي الإخفاقات

1558

النموذج الأكثر تأثرًا

الفئات

ضمن الفئة خاص بالمجال412 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة252 ضمن الفئة حل الألغاز201 ضمن الفئة معلومات عامة168 ضمن الفئة مجمّع68 ضمن الفئة اتباع التعليمات61 ضمن الفئة الذكاء العام59 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

209/209

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 3.74s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 13.6s
#127	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 12.7s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
إجمالي الاختبارات 21 الاختبارات الخاطئة 12 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 4.03s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 36.8s
#162	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 8.58s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 10.8s
#171	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 29.9s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 2.98s
#87	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.544 زمن الاستجابة (المتوسط) 2.36s
#102	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 47.9s
#122	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 1.75s
#132	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.349 زمن الاستجابة (المتوسط) 1.65s
#138	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 19.6s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)