ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

Muse Spark 1.1 7.8

أسباب الفشل

مع سبب الفشل إجابة خاطئة204 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

216/216

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#139	Gemini 3 PRO Preview medium	Google	10.0	6.0	$0.385	3/3	3.88s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 3.88s
#119	MiMo-V2-Flash medium	Xiaomi	7.7	6.3	$0.043	2/3	3.87s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 3.87s
#57	GPT-5.4 Nano medium	OpenAI	4.1	7.5	$0.138	0/3	3.79s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 3.79s
#43	GPT-5.6 Terra medium	OpenAI	8.4	7.8	$0.676	2/3	3.78s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 3.78s
#202	Hunter Alpha none	OpenRouter	5.8	4.2	$0.000	1/3	3.71s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.71s
#86	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	3/3	3.61s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 3.61s
#123	GPT-5.6 Luna low	OpenAI	7.6	6.2	$0.249	2/3	3.59s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 3.59s
#55	Nemotron 3 Ultra medium	NVIDIA	5.5	7.5	$0.774	1/3	3.54s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.774 زمن الاستجابة (المتوسط) 3.54s
#137	Grok 4.20 Beta medium	X AI	10.0	6.0	$0.750	3/3	3.52s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 3.52s
#5	GPT-5.6 Sol low	OpenAI	8.2	9.5	$0.971	2/3	3.44s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.971 زمن الاستجابة (المتوسط) 3.44s
#108	Laguna XS 2.1 medium	Poolside	5.3	6.5	$0.068	1/3	3.43s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 3.43s
#152	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	3.40s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.40s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	8.2	7.2	$0.482	2/3	3.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 3.38s
#101	GLM 5.2 none	Z.ai	7.7	6.6	$0.128	2/3	3.31s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 3.31s
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	3/3	3.23s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 3.23s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)