پہیلی حل کرنا ماڈل درجہ بندی

دیکھیں کہ پہیلی حل کرنا میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

اوسط پہیلی حل کرنا اسکور

6.7

بہترین ماڈل

Muse Spark 1.1 7.8

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ201 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ90 ناکامی کی وجہ API خرابی کے ساتھ12 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ8 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ3

210/210

درجہ	ماڈل	کمپنی	پہیلی حل کرنا اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#27	Muse Spark 1.1 high	Meta	7.8	8.1	$1.694	2/3	70.0s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 70.0s
#99	Qwen3.6 27B medium	Qwen	7.7	6.5	$0.779	2/3	61.1s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 61.1s
#58	Qwen3.5-27B medium	Qwen	8.2	7.4	$1.627	2/3	59.6s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.627 ردِعمل کا وقت (اوسط) 59.6s
#46	DeepSeek V4 Pro high	DeepSeek	6.9	7.7	$0.200	1/3	56.8s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 56.8s
#143	Gemini 3.1 Flash Lite high	Google	5.7	5.6	$2.044	1/3	50.8s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $2.044 ردِعمل کا وقت (اوسط) 50.8s
#47	MiniMax M3 medium	Minimax	7.9	7.6	$0.286	2/3	49.9s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.286 ردِعمل کا وقت (اوسط) 49.9s
#163	Gemini 3.1 Flash Lite Preview high	Google	7.7	5.3	$2.310	2/3	46.7s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $2.310 ردِعمل کا وقت (اوسط) 46.7s
#77	Kimi K2.5 medium	Moonshot AI	5.3	7.0	$0.600	1/3	43.2s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.600 ردِعمل کا وقت (اوسط) 43.2s
#16	Muse Spark 1.1 medium	Meta	7.9	8.6	$1.357	2/3	42.5s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.357 ردِعمل کا وقت (اوسط) 42.5s
#52	Kimi K2.7 Code medium	Moonshot AI	5.9	7.5	$0.751	1/3	41.0s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.751 ردِعمل کا وقت (اوسط) 41.0s
#76	DeepSeek V3.2 medium	DeepSeek	7.0	7.0	$0.078	1/3	37.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.078 ردِعمل کا وقت (اوسط) 37.7s
#31	GLM 5.2 high	Z.ai	6.0	8.0	$0.970	1/3	33.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.970 ردِعمل کا وقت (اوسط) 33.7s
#119	Qwen3.5-35B-A3B medium	Qwen	8.2	6.2	$0.837	2/3	33.1s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.837 ردِعمل کا وقت (اوسط) 33.1s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	3/3	32.5s
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.437 ردِعمل کا وقت (اوسط) 32.5s
#204	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/3	32.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 32.3s

1 2 14

→

پہیلی حل کرنا درجہ بندی

ماڈلز فلٹر کریں

پہیلی حل کرنا اسکور کے لحاظ سے سرفہرست ماڈلز

پہیلی حل کرنا اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز