ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Step 3.5 Flash 4

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 7.11s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 6.88s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
إجمالي الاختبارات 19 الاختبارات الخاطئة 13 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 6.73s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.164 زمن الاستجابة (المتوسط) 6.70s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $0.177 زمن الاستجابة (المتوسط) 6.28s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 6.20s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 6.04s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.369 زمن الاستجابة (المتوسط) 6.01s
#183	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 5.97s
#14	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
إجمالي الاختبارات 22 الاختبارات الخاطئة 3 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 5.55s
#167	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 5.52s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 5.34s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 5.31s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 5.18s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 5.15s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)