ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↑.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

LFM2-24B-A2B 9

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 1.86s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 6.20s
#125	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 112.5s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 5.04s
#122	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.066 زمن الاستجابة (المتوسط) 4.40s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 5.34s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 84.8s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
إجمالي الاختبارات 21 الاختبارات الخاطئة 9 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 20.1s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 6.04s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 5.18s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.107 زمن الاستجابة (المتوسط) 75.4s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 9 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 22.2s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 68.7s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 9.85s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 1.58s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)