پہیلی حل کرنا ماڈل درجہ بندی

دیکھیں کہ پہیلی حل کرنا میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

اوسط پہیلی حل کرنا اسکور

6.7

بہترین ماڈل

Step 3.5 Flash 0.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ201 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ90 ناکامی کی وجہ API خرابی کے ساتھ12 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ8 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ3

210/210

درجہ	ماڈل	کمپنی	پہیلی حل کرنا اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#195	Elephant Alpha medium	Openrouter	5.3	4.3	$0.000	1/3	868ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 868ms
#192	Laguna M.1 none	Poolside	3.0	4.4	$0.009	0/3	891ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 891ms
#106	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	3/3	900ms
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 900ms
#164	Inkling none	Thinkingmachines	5.6	5.2	$0.147	1/3	931ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 931ms
#78	Mercury 2 medium	Inception	5.4	7.0	$0.093	1/3	949ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 949ms
#142	Qwen3.5-122B-A10B none	Qwen	3.8	5.7	$0.247	0/3	1.00s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 1.00s
#160	Laguna XS 2.1 none	Poolside	3.0	5.3	$0.008	0/3	1.01s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.01s
#89	Gemini 3 Flash Preview none	Google	7.7	6.8	$0.085	2/3	1.05s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.085 ردِعمل کا وقت (اوسط) 1.05s
#129	Nemotron 3 Ultra none	NVIDIA	5.9	6.1	$0.095	1/3	1.06s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 1.06s
#161	Qwen3.6 35B A3B none	Qwen	3.2	5.3	$0.061	0/3	1.07s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.061 ردِعمل کا وقت (اوسط) 1.07s
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/3	1.10s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.10s
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	3/3	1.13s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.197 ردِعمل کا وقت (اوسط) 1.13s
#157	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	3/3	1.16s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 1.16s
#176	GLM 4.7 Flash none	Z.ai	6.4	4.9	$0.016	1/3	1.20s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 1.20s
#174	GPT-4o-mini none	OpenAI	3.5	5.0	$0.010	0/3	1.21s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 1.21s

پہیلی حل کرنا درجہ بندی

ماڈلز فلٹر کریں

پہیلی حل کرنا اسکور کے لحاظ سے سرفہرست ماڈلز

پہیلی حل کرنا اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز