ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

Step 3.5 Flash 0.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة204 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

216/216

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#69	Gemini 3.1 Flash Lite medium	Google	7.6	7.3	$0.117	2/3	1.95s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 1.95s
#189	Trinity Large Preview none	Arcee AI	3.6	4.8	$0.008	0/3	1.97s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.97s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.7	6.1	$0.122	1/3	1.97s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 1.97s
#174	MiMo-V2.5 none	Xiaomi	5.4	5.1	$0.025	1/3	2.13s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.13s
#126	Gemini 3.1 Flash Lite minimal	Google	6.0	6.1	$0.047	1/3	2.15s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 2.15s
#173	Mistral Small 4 medium	Mistral	3.4	5.1	$0.096	0/3	2.17s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 2.17s
#14	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	3/3	2.35s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 2.35s
#183	Nemotron 3 Super none	NVIDIA	5.5	4.9	$0.008	1/3	2.36s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 2.36s
#140	Mimo V2 Omni medium	Xiaomi	5.9	5.9	$0.683	1/3	2.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 2.38s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 2.38s
#151	GLM 5V Turbo none	Z.ai	5.3	5.6	$0.052	1/3	2.40s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 2.40s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	3/3	2.43s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $1.477 زمن الاستجابة (المتوسط) 2.43s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	3/3	2.46s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.505 زمن الاستجابة (المتوسط) 2.46s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	3.5	5.6	$0.077	0/3	2.47s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 2.47s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	3/3	2.53s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.831 زمن الاستجابة (المتوسط) 2.53s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)