ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Gemini 3.6 Flash 1

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.145 زمن الاستجابة (المتوسط) 2.25s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.369 زمن الاستجابة (المتوسط) 6.01s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 16.3s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 5.34s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 21.9s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 54.9s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 137.1s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 15.9s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 10.7s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
إجمالي الاختبارات 21 الاختبارات الخاطئة 14 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 39.9s
#199	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
إجمالي الاختبارات 21 الاختبارات الخاطئة 16 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.22s
#200	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 142.6s
#201	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
إجمالي الاختبارات 21 الاختبارات الخاطئة 15 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.27s
#202	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.70s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
إجمالي الاختبارات 19 الاختبارات الخاطئة 17 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 728ms

←

1 9 10 11 15

→

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)