معلومات عامہ ماڈل درجہ بندی

AI BENCHY زمرہ

دیکھیں کہ معلومات عامہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: کل لاگت ↓.

دکھائے گئے ماڈلز

اوسط معلومات عامہ اسکور

3.1

بہترین ماڈل

Grok 4.20 Multi Agent Beta 0.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ133 ناکامی کی وجہ API خرابی کے ساتھ13 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ8

169/169

درجہ	ماڈل	کمپنی	معلومات عامہ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#148	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.008	0/1	399ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 399ms
#137	Trinity Large Preview none	Arcee AI	3.0	5.0	$0.008	0/1	777ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 777ms
#161	Grok 4.1 Fast none	X AI	3.0	4.0	$0.008	0/1	731ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 731ms
#117	DeepSeek V4 Flash none	DeepSeek	3.0	5.5	$0.007	0/1	3.07s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 3.07s
#129	Mistral Small 4 none	Mistral	3.0	5.1	$0.007	0/1	397ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 397ms
#134	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.007	0/1	3.89s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 3.89s
#142	Nemotron 3 Super none	NVIDIA	3.0	4.9	$0.007	0/1	8.94s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 8.94s
#139	GPT-4o-mini none	OpenAI	3.0	5.0	$0.006	0/1	794ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.006 ردِعمل کا وقت (اوسط) 794ms
#135	Qwen3.5-9B none	Qwen	3.0	5.1	$0.006	0/1	2.32s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.006 ردِعمل کا وقت (اوسط) 2.32s
#147	Ling-2.6-1T none	Inclusionai	3.0	4.7	$0.005	0/1	0ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.005 ردِعمل کا وقت (اوسط) 0ms
#97	Qwen3.5-Flash none	Qwen	3.0	6.1	$0.005	0/1	588ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.005 ردِعمل کا وقت (اوسط) 588ms
#141	GLM 4.7 Flash none	Z.ai	3.0	4.9	$0.004	0/1	692ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 692ms
#121	Gemma 4 26B A4B none	Google	3.0	5.5	$0.004	0/1	778ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 778ms
#98	Gemma 4 31B none	Google	3.0	6.1	$0.004	0/1	1.25s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 1.25s
#163	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.003	0/1	306ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 306ms

←

1 9 10 11 12

→

معلومات عامہ درجہ بندی

ماڈلز فلٹر کریں

معلومات عامہ اسکور کے لحاظ سے سرفہرست ماڈلز

معلومات عامہ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز