ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Nemotron 3 Nano Omni 30b A3b Reasoning 9

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
إجمالي الاختبارات 21 الاختبارات الخاطئة 7 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 9.05s
#172	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 9.12s
#182	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 9.15s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 9.34s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.584 زمن الاستجابة (المتوسط) 9.48s
#193	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 9.61s
#187	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
إجمالي الاختبارات 18 الاختبارات الخاطئة 10 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 9.69s
#137	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
إجمالي الاختبارات 18 الاختبارات الخاطئة 4 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 9.75s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 9.85s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
إجمالي الاختبارات 21 الاختبارات الخاطئة 14 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 9.88s
#83	Gemini 3.5 Flash none	Google	3	7.0	$1.079	15/22	9.93s
إجمالي الاختبارات 22 الاختبارات الخاطئة 7 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 9.93s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 10.1s
#1	Gemini 3.6 Flash medium	Google	1	9.9	$0.831	21/22	10.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 1 إجمالي التكلفة $0.831 زمن الاستجابة (المتوسط) 10.1s
#9	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 3 إجمالي التكلفة $1.253 زمن الاستجابة (المتوسط) 10.1s
#190	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
إجمالي الاختبارات 18 الاختبارات الخاطئة 10 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 10.3s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)