پہیلی حل کرنا ماڈل درجہ بندی

دیکھیں کہ پہیلی حل کرنا میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

اوسط پہیلی حل کرنا اسکور

6.7

بہترین ماڈل

Gemini 3 Flash Preview 10.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ201 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ90 ناکامی کی وجہ API خرابی کے ساتھ12 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ8 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ3

210/210

درجہ	ماڈل	کمپنی	پہیلی حل کرنا اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#33	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	3/3	7.36s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $3.112 ردِعمل کا وقت (اوسط) 7.36s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	3/3	16.4s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.267 ردِعمل کا وقت (اوسط) 16.4s
#37	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	3/3	6.34s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.405 ردِعمل کا وقت (اوسط) 6.34s
#40	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	3/3	5.31s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 5.31s
#41	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	3/3	3.01s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $2.077 ردِعمل کا وقت (اوسط) 3.01s
#42	GLM 5 medium	Z.ai	10.0	7.7	$0.307	3/3	11.3s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.307 ردِعمل کا وقت (اوسط) 11.3s
#54	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	3/3	2.99s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.571 ردِعمل کا وقت (اوسط) 2.99s
#55	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	3/3	4.46s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.519 ردِعمل کا وقت (اوسط) 4.46s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	3/3	32.5s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.437 ردِعمل کا وقت (اوسط) 32.5s
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	3/3	1.13s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.197 ردِعمل کا وقت (اوسط) 1.13s
#61	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	3/3	5.77s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.177 ردِعمل کا وقت (اوسط) 5.77s
#72	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	3/3	17.9s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $1.046 ردِعمل کا وقت (اوسط) 17.9s
#79	Gemini 3.5 Flash none	Google	10.0	7.0	$1.079	3/3	3.13s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $1.079 ردِعمل کا وقت (اوسط) 3.13s
#82	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	3/3	3.61s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 3.61s
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	1.45s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 1.45s

پہیلی حل کرنا درجہ بندی

ماڈلز فلٹر کریں

پہیلی حل کرنا اسکور کے لحاظ سے سرفہرست ماڈلز

پہیلی حل کرنا اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز