پہیلی حل کرنا ماڈل درجہ بندی

دیکھیں کہ پہیلی حل کرنا میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

اوسط پہیلی حل کرنا اسکور

6.7

بہترین ماڈل

Muse Spark 1.1 7.8

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ214 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ90 ناکامی کی وجہ API خرابی کے ساتھ12 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ10 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ3

220/220

درجہ	ماڈل	کمپنی	پہیلی حل کرنا اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#106	Hy3 preview medium	Tencent	7.7	6.5	$0.018	2/3	11.1s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 11.1s
#131	Qwen3.5-Flash none	Qwen	3.1	6.1	$0.073	0/3	10.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 10.9s
#32	Inkling high	Thinkingmachines	6.9	8.0	$1.006	1/3	10.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.006 ردِعمل کا وقت (اوسط) 10.7s
#98	GLM 5V Turbo medium	Z.ai	7.7	6.7	$0.457	2/3	10.2s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 10.2s
#39	Seed-2.0-Lite medium	Bytedance Seed	9.0	7.9	$0.234	2/3	10.2s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 10.2s
#90	Step 3.7 Flash high	Stepfun	5.3	6.9	$1.207	1/3	10.2s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.207 ردِعمل کا وقت (اوسط) 10.2s
#195	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	10.2s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 10.2s
#212	Grok Build 0.1 none	X AI	6.4	4.0	$0.547	1/3	9.55s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.547 ردِعمل کا وقت (اوسط) 9.55s
#102	LongCat 2.0 high	Meituan	3.1	6.6	$0.469	0/3	9.18s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 9.18s
#21	GPT-5.4 medium	OpenAI	8.2	8.5	$1.533	2/3	9.14s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 9.14s
#64	LongCat 2.0 medium	Meituan	5.4	7.4	$0.478	1/3	8.84s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 8.84s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	3/3	8.84s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $1.116 ردِعمل کا وقت (اوسط) 8.84s
#216	gpt-oss-120b none	OpenAI	6.0	3.7	$0.010	1/3	8.21s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 8.21s
#96	LongCat 2.0 low	Meituan	3.1	6.7	$0.391	0/3	8.15s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 8.15s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	3/3	7.88s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $1.707 ردِعمل کا وقت (اوسط) 7.88s

پہیلی حل کرنا درجہ بندی

ماڈلز فلٹر کریں

پہیلی حل کرنا اسکور کے لحاظ سے سرفہرست ماڈلز

پہیلی حل کرنا اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز