پہیلی حل کرنا ماڈل درجہ بندی

دیکھیں کہ پہیلی حل کرنا میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: میٹرک ↑.

دکھائے گئے ماڈلز

اوسط پہیلی حل کرنا اسکور

6.7

بہترین ماڈل

Step 3.5 Flash 0.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ201 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ90 ناکامی کی وجہ API خرابی کے ساتھ12 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ8 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ3

210/210

درجہ	ماڈل	کمپنی	پہیلی حل کرنا اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#209	Step 3.5 Flash none	Stepfun	0.0	2.3	$0.020	0/0	0ms
کل ٹیسٹس 0 غلط ٹیسٹس 0 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 0ms
#182	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	1.84s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.067 ردِعمل کا وقت (اوسط) 1.84s
#178	Ling-2.6-flash none	Inclusionai	2.9	4.9	$0.002	0/3	6.51s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.002 ردِعمل کا وقت (اوسط) 6.51s
#194	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/3	12.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 12.9s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	1.40s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	3.0	5.7	$0.050	0/3	3.15s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.050 ردِعمل کا وقت (اوسط) 3.15s
#155	Kimi K2.5 none	Moonshot AI	3.0	5.5	$0.127	0/3	4.04s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.127 ردِعمل کا وقت (اوسط) 4.04s
#160	Laguna XS 2.1 none	Poolside	3.0	5.3	$0.008	0/3	1.01s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.01s
#166	Qwen3 Coder Next none	Qwen	3.0	5.1	$0.025	0/3	24.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 24.3s
#187	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.032	0/3	1.25s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 1.25s
#192	Laguna M.1 none	Poolside	3.0	4.4	$0.009	0/3	891ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 891ms
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/3	1.10s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.10s
#204	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/3	32.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 32.3s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/3	532ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 532ms
#150	DeepSeek V4 Flash none	DeepSeek	3.1	5.6	$0.044	0/3	23.7s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 23.7s

1 2 14

→

پہیلی حل کرنا درجہ بندی

ماڈلز فلٹر کریں

پہیلی حل کرنا اسکور کے لحاظ سے سرفہرست ماڈلز

پہیلی حل کرنا اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز