ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

Step 3.5 Flash 0.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة204 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

216/216

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#83	Gemini 3.5 Flash none	Google	10.0	7.0	$1.079	3/3	3.13s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 3.13s
#146	Nemotron 3 Super medium	NVIDIA	3.0	5.7	$0.055	0/3	3.15s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.055 زمن الاستجابة (المتوسط) 3.15s
#28	Gemini 2.5 Flash medium	Google	7.7	8.2	$0.643	2/3	3.18s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.643 زمن الاستجابة (المتوسط) 3.18s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	3/3	3.20s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.935 زمن الاستجابة (المتوسط) 3.20s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	5.9	6.9	$0.467	1/3	3.20s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 3.20s
#118	Claude Sonnet 5 none	Anthropic	6.0	6.3	$0.548	1/3	3.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 3.22s
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	3/3	3.23s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 3.23s
#101	GLM 5.2 none	Z.ai	7.7	6.6	$0.128	2/3	3.31s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 3.31s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	8.2	7.2	$0.482	2/3	3.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 3.38s
#152	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	3.40s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.40s
#108	Laguna XS 2.1 medium	Poolside	5.3	6.5	$0.068	1/3	3.43s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 3.43s
#5	GPT-5.6 Sol low	OpenAI	8.2	9.5	$0.971	2/3	3.44s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.971 زمن الاستجابة (المتوسط) 3.44s
#137	Grok 4.20 Beta medium	X AI	10.0	6.0	$0.750	3/3	3.52s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 3.52s
#55	Nemotron 3 Ultra medium	NVIDIA	5.5	7.5	$0.774	1/3	3.54s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.774 زمن الاستجابة (المتوسط) 3.54s
#123	GPT-5.6 Luna low	OpenAI	7.6	6.2	$0.249	2/3	3.59s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 3.59s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)