ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

إجمالي الإخفاقات

1523

النموذج الأكثر تأثرًا

الفئات

ضمن الفئة خاص بالمجال404 ضمن الفئة حيل مضادة للذكاء الاصطناعي290 ضمن الفئة البرمجة249 ضمن الفئة حل الألغاز193 ضمن الفئة معلومات عامة165 ضمن الفئة مجمّع67 ضمن الفئة اتباع التعليمات57 ضمن الفئة الذكاء العام55 ضمن الفئة تحليل البيانات واستخراجها40 ضمن الفئة استدعاء الأدوات3

205/205

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#185	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 829ms
#161	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 1.20s
#151	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.127 زمن الاستجابة (المتوسط) 19.2s
#170	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 1.99s
#173	Nemotron 3 Super none	NVIDIA	15	4.9	$0.017	5/22	5.97s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 5.97s
#176	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 2.57s
#135	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.397 زمن الاستجابة (المتوسط) 2.07s
#155	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 1.50s
#156	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.55s
#162	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 9.12s
#164	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 4.62s
#165	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 19.2s
#112	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.066 زمن الاستجابة (المتوسط) 4.40s
#121	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 25.3s
#132	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 1.53s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)