پہیلی حل کرنا ماڈل درجہ بندی

دیکھیں کہ پہیلی حل کرنا میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

اوسط پہیلی حل کرنا اسکور

6.7

بہترین ماڈل

Step 3.5 Flash 0.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ214 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ90 ناکامی کی وجہ API خرابی کے ساتھ12 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ10 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ3

220/220

درجہ	ماڈل	کمپنی	پہیلی حل کرنا اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#150	KAT-Coder-Air V2.5 high	Kwaipilot	3.5	5.6	$0.077	0/3	2.47s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.077 ردِعمل کا وقت (اوسط) 2.47s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	3/3	2.53s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.831 ردِعمل کا وقت (اوسط) 2.53s
#67	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	2.53s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 2.53s
#164	Laguna S 2.1 medium	Poolside	3.1	5.4	$0.059	0/3	2.62s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.059 ردِعمل کا وقت (اوسط) 2.62s
#103	Qwen3.6 Max Preview none	Qwen	10.0	6.6	$0.231	3/3	2.65s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.231 ردِعمل کا وقت (اوسط) 2.65s
#178	GLM 5 Turbo none	Z.ai	5.5	5.1	$0.047	1/3	2.65s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 2.65s
#181	Laguna S 2.1 low	Poolside	3.1	5.0	$0.091	0/3	2.70s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.091 ردِعمل کا وقت (اوسط) 2.70s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	7.7	6.4	$0.073	2/3	2.71s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 2.71s
#117	LongCat 2.0 none	Meituan	4.0	6.3	$0.044	0/3	2.74s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 2.74s
#70	Claude Opus 4.8 none	Anthropic	7.7	7.3	$1.166	2/3	2.74s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 2.74s
#122	Seed-2.0-Lite none	Bytedance Seed	5.3	6.2	$0.066	1/3	2.78s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.066 ردِعمل کا وقت (اوسط) 2.78s
#129	Inkling low	Thinkingmachines	6.4	6.1	$0.187	1/3	2.97s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 2.97s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.922 ردِعمل کا وقت (اوسط) 2.98s
#7	GPT-5.6 Sol medium	OpenAI	8.2	9.4	$1.316	2/3	2.98s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.316 ردِعمل کا وقت (اوسط) 2.98s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	3/3	2.99s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.571 ردِعمل کا وقت (اوسط) 2.99s

پہیلی حل کرنا درجہ بندی

ماڈلز فلٹر کریں

پہیلی حل کرنا اسکور کے لحاظ سے سرفہرست ماڈلز

پہیلی حل کرنا اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز