ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Step 3.5 Flash 4

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#161	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.127 زمن الاستجابة (المتوسط) 19.2s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 7 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 18.7s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 18.3s
#20	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 5 إجمالي التكلفة $3.478 زمن الاستجابة (المتوسط) 17.2s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
إجمالي الاختبارات 19 الاختبارات الخاطئة 15 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 17.1s
#16	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $0.920 زمن الاستجابة (المتوسط) 17.0s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 16.7s
#106	Hy3 preview medium	Tencent	3	6.5	$0.018	14/21	16.3s
إجمالي الاختبارات 21 الاختبارات الخاطئة 7 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 16.3s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 16.3s
#36	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 7 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 16.2s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 15.9s
#23	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $0.935 زمن الاستجابة (المتوسط) 15.6s
#181	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 15.2s
#4	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 2 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 15.1s
#2	Gemini 3.6 Flash high	Google	1	9.7	$1.785	21/22	14.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 1 إجمالي التكلفة $1.785 زمن الاستجابة (المتوسط) 14.9s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)