پہیلی حل کرنا ماڈل درجہ بندی

دیکھیں کہ پہیلی حل کرنا میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

اوسط پہیلی حل کرنا اسکور

6.7

بہترین ماڈل

GPT-5.4 Nano 4.1

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ204 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ90 ناکامی کی وجہ API خرابی کے ساتھ12 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ8 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ3

216/216

درجہ	ماڈل	کمپنی	پہیلی حل کرنا اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#195	Mercury 2 none	Inception	3.1	4.6	$0.030	0/3	535ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 535ms
#198	Laguna M.1 none	Poolside	3.0	4.4	$0.009	0/3	891ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 891ms
#199	Elephant Alpha none	Openrouter	4.2	4.3	$0.000	0/3	807ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 807ms
#200	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/3	12.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 12.9s
#205	Hy3 preview none	Tencent	3.1	4.0	$0.003	0/3	4.56s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 4.56s
#207	Granite 4.1 8B none	IBM Granite	3.2	4.0	$0.007	0/3	608ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 608ms
#209	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/3	1.10s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.10s
#210	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/3	32.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 32.3s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	1.40s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.40s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/3	532ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 532ms
#215	Step 3.5 Flash none	Stepfun	0.0	2.3	$0.020	0/0	0ms
کل ٹیسٹس 0 غلط ٹیسٹس 0 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 0ms
#216	LFM2-24B-A2B none	Liquid	3.8	2.2	$0.001	0/3	1.78s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 1.78s
#29	GPT-5 Mini medium	OpenAI	5.6	8.1	$0.237	1/3	15.2s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 15.2s
#32	Inkling high	Thinkingmachines	6.9	8.0	$1.006	1/3	10.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.006 ردِعمل کا وقت (اوسط) 10.7s
#33	Step 3.7 Flash medium	Stepfun	5.7	8.0	$0.515	1/3	6.19s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 6.19s

پہیلی حل کرنا درجہ بندی

ماڈلز فلٹر کریں

پہیلی حل کرنا اسکور کے لحاظ سے سرفہرست ماڈلز

پہیلی حل کرنا اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز