ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

Gemini 3 Flash Preview 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة201 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

210/210

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#94	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	3/3	2.46s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.505 زمن الاستجابة (المتوسط) 2.46s
#95	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	3/3	5.79s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.089 زمن الاستجابة (المتوسط) 5.79s
#98	Qwen3.6 Max Preview none	Qwen	10.0	6.6	$0.231	3/3	2.65s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 2.65s
#104	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	3/3	1.69s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 1.69s
#105	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	3/3	1.40s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 1.40s
#106	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	3/3	900ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 900ms
#110	Gemma 4 31B medium	Google	9.9	6.3	$0.163	3/3	26.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 26.9s
#131	Grok 4.20 Beta medium	X AI	10.0	6.0	$0.750	3/3	3.52s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 3.52s
#133	Gemini 3 PRO Preview medium	Google	10.0	6.0	$0.385	3/3	3.88s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 3.88s
#157	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	3/3	1.16s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 1.16s
#3	GPT-5.6 Sol low	OpenAI	8.2	9.5	$0.971	2/3	3.44s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.971 زمن الاستجابة (المتوسط) 3.44s
#4	GPT-5.6 Sol medium	OpenAI	8.2	9.4	$1.316	2/3	2.98s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.316 زمن الاستجابة (المتوسط) 2.98s
#9	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 2.38s
#13	GPT-5.3-Codex medium	OpenAI	9.0	8.9	$0.920	2/3	5.05s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.920 زمن الاستجابة (المتوسط) 5.05s
#16	Muse Spark 1.1 medium	Meta	7.9	8.6	$1.357	2/3	42.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.357 زمن الاستجابة (المتوسط) 42.5s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)