ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

1558

النموذج الأكثر تأثرًا

Granite 4.1 8B 13

الفئات

ضمن الفئة خاص بالمجال412 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة252 ضمن الفئة حل الألغاز201 ضمن الفئة معلومات عامة168 ضمن الفئة مجمّع68 ضمن الفئة اتباع التعليمات61 ضمن الفئة الذكاء العام59 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

209/209

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.76s
#192	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
إجمالي الاختبارات 19 الاختبارات الخاطئة 15 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 2.89s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
إجمالي الاختبارات 19 الاختبارات الخاطئة 15 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 17.1s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 36.8s
#160	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.55s
#165	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 1.20s
#166	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 9.12s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 10.8s
#168	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 4.62s
#172	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 41.3s
#174	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 1.99s
#177	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 5.97s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 12.2s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 68.3s
#193	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
إجمالي الاختبارات 21 الاختبارات الخاطئة 16 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.22s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)