معلومات عامہ ماڈل درجہ بندی

AI BENCHY زمرہ

دیکھیں کہ معلومات عامہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: کل لاگت ↑.

دکھائے گئے ماڈلز

اوسط معلومات عامہ اسکور

3.1

بہترین ماڈل

North Mini Code 3.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ133 ناکامی کی وجہ API خرابی کے ساتھ13 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ8

169/169

درجہ	ماڈل	کمپنی	معلومات عامہ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#115	Grok 4.1 Fast medium	X AI	3.0	5.6	$0.069	0/1	25.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.069 ردِعمل کا وقت (اوسط) 25.5s
#80	Step 3.5 Flash medium	Stepfun	3.0	6.6	$0.070	0/1	108.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.070 ردِعمل کا وقت (اوسط) 108.4s
#34	Gemini 3.1 Flash Lite medium	Google	3.0	7.8	$0.071	0/1	3.08s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.071 ردِعمل کا وقت (اوسط) 3.08s
#100	Qwen3.6 Max Preview none	Qwen	3.0	6.0	$0.075	0/1	1.97s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.075 ردِعمل کا وقت (اوسط) 1.97s
#61	GLM 5.2 none	Z.ai	3.0	7.1	$0.076	0/1	3.41s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.076 ردِعمل کا وقت (اوسط) 3.41s
#111	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.079	0/1	1.36s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.079 ردِعمل کا وقت (اوسط) 1.36s
#70	Qwen3.5-Flash medium	Qwen	3.0	6.8	$0.080	0/1	49.0s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.080 ردِعمل کا وقت (اوسط) 49.0s
#79	GPT-5 Nano medium	OpenAI	3.0	6.7	$0.081	0/1	20.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.081 ردِعمل کا وقت (اوسط) 20.1s
#149	Grok 4.20 Beta none	X AI	0.0	4.7	$0.087	0/0	0ms
کل ٹیسٹس 0 غلط ٹیسٹس 0 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 0ms
#127	MiniMax M2.7 medium	Minimax	3.0	5.2	$0.104	0/1	22.8s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.104 ردِعمل کا وقت (اوسط) 22.8s
#51	MiMo-V2.5-Pro medium	Xiaomi	3.0	7.4	$0.106	0/1	12.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.5s
#46	GPT-5.4 Nano medium	OpenAI	3.0	7.5	$0.107	0/1	4.81s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.107 ردِعمل کا وقت (اوسط) 4.81s
#71	Gemini 3.5 Flash minimal	Google	3.0	6.8	$0.108	0/1	1.76s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 1.76s
#52	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.111	1/1	2.75s
کل ٹیسٹس 1 غلط ٹیسٹس 0 کل لاگت $0.111 ردِعمل کا وقت (اوسط) 2.75s
#112	GPT-5.4 none	OpenAI	3.0	5.8	$0.122	0/1	990ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.122 ردِعمل کا وقت (اوسط) 990ms

معلومات عامہ درجہ بندی

ماڈلز فلٹر کریں

معلومات عامہ اسکور کے لحاظ سے سرفہرست ماڈلز

معلومات عامہ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز