ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

Gemini 3.6 Flash 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة204 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

216/216

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#43	GPT-5.6 Terra medium	OpenAI	8.4	7.8	$0.676	2/3	3.78s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 3.78s
#47	Claude Opus 4.6 medium	Anthropic	7.7	7.7	$3.059	2/3	4.71s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $3.059 زمن الاستجابة (المتوسط) 4.71s
#48	GPT-5.6 Luna high	OpenAI	7.6	7.7	$1.017	2/3	14.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 14.6s
#49	DeepSeek V4 Flash high	DeepSeek	8.2	7.7	$0.041	2/3	26.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 26.1s
#51	MiniMax M3 medium	Minimax	7.9	7.6	$0.286	2/3	49.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 49.9s
#52	Grok Build 0.1 medium	X AI	7.7	7.6	$1.097	2/3	18.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 18.3s
#53	GLM 5 Turbo medium	Z.ai	8.7	7.6	$0.323	2/3	5.23s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 5.23s
#54	GPT-5.6 Luna medium	OpenAI	7.8	7.6	$0.352	2/3	4.04s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 4.04s
#60	GPT-5.4 Mini medium	OpenAI	7.8	7.5	$0.756	2/3	4.37s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 4.37s
#62	Qwen3.5-27B medium	Qwen	8.2	7.4	$1.627	2/3	59.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 59.6s
#67	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	2.53s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 2.53s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.7	7.3	$0.115	2/3	5.30s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.115 زمن الاستجابة (المتوسط) 5.30s
#69	Gemini 3.1 Flash Lite medium	Google	7.6	7.3	$0.117	2/3	1.95s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 1.95s
#70	Claude Opus 4.8 none	Anthropic	7.7	7.3	$1.166	2/3	2.74s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.166 زمن الاستجابة (المتوسط) 2.74s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	8.2	7.2	$0.482	2/3	3.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 3.38s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)