ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

1558

النموذج الأكثر تأثرًا

Nemotron 3 Nano Omni 30b A3b Reasoning 9

الفئات

ضمن الفئة خاص بالمجال412 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة252 ضمن الفئة حل الألغاز201 ضمن الفئة معلومات عامة168 ضمن الفئة مجمّع68 ضمن الفئة اتباع التعليمات61 ضمن الفئة الذكاء العام59 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

209/209

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
إجمالي الاختبارات 19 الاختبارات الخاطئة 17 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 728ms
#210	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
إجمالي الاختبارات 16 الاختبارات الخاطئة 14 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 782ms
#205	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
إجمالي الاختبارات 19 الاختبارات الخاطئة 14 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 806ms
#189	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 829ms
#197	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 1.11s
#191	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 1.19s
#165	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 1.20s
#193	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
إجمالي الاختبارات 21 الاختبارات الخاطئة 16 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.22s
#195	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
إجمالي الاختبارات 21 الاختبارات الخاطئة 15 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.27s
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
إجمالي الاختبارات 22 الاختبارات الخاطئة 20 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 1.45s
#159	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 1.50s
#136	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 1.53s
#160	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.55s
#106	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 1.58s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
إجمالي الاختبارات 19 الاختبارات الخاطئة 16 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.62s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)