معلومات عامہ ماڈل درجہ بندی

AI BENCHY زمرہ

دیکھیں کہ معلومات عامہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

اوسط معلومات عامہ اسکور

3.1

بہترین ماڈل

Grok 4.20 Beta 0.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ133 ناکامی کی وجہ API خرابی کے ساتھ13 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ8

169/169

درجہ	ماڈل	کمپنی	معلومات عامہ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#2	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.667	1/1	5.50s
کل ٹیسٹس 1 غلط ٹیسٹس 0 کل لاگت $0.667 ردِعمل کا وقت (اوسط) 5.50s
#58	DeepSeek V4 Pro none	DeepSeek	3.0	7.2	$0.034	0/1	5.76s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.034 ردِعمل کا وقت (اوسط) 5.76s
#133	Mistral Small 4 medium	Mistral	3.0	5.1	$0.068	0/1	5.92s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 5.92s
#12	Claude Opus 4.8 medium	Anthropic	3.0	8.8	$1.107	0/1	6.14s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.107 ردِعمل کا وقت (اوسط) 6.14s
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.054	1/1	6.27s
کل ٹیسٹس 1 غلط ٹیسٹس 0 کل لاگت $1.054 ردِعمل کا وقت (اوسط) 6.27s
#19	GPT-5.2 Chat none	OpenAI	3.0	8.5	$0.393	0/1	6.89s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.393 ردِعمل کا وقت (اوسط) 6.89s
#142	Nemotron 3 Super none	NVIDIA	3.0	4.9	$0.007	0/1	8.94s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 8.94s
#16	GPT-5 Mini medium	OpenAI	3.0	8.5	$0.159	0/1	9.99s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.159 ردِعمل کا وقت (اوسط) 9.99s
#4	GPT-5.5 low	OpenAI	3.0	9.3	$0.907	0/1	10.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.907 ردِعمل کا وقت (اوسط) 10.1s
#157	GLM 4.7 Flash medium	Z.ai	3.0	4.3	$0.054	0/1	11.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 11.1s
#51	MiMo-V2.5-Pro medium	Xiaomi	3.0	7.4	$0.106	0/1	12.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.5s
#17	GPT-5.4 medium	OpenAI	3.0	8.5	$1.210	0/1	14.0s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.210 ردِعمل کا وقت (اوسط) 14.0s
#10	GPT-5.3-Codex medium	OpenAI	2.8	8.9	$0.740	0/1	14.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.740 ردِعمل کا وقت (اوسط) 14.4s
#126	DeepSeek V3.2 none	DeepSeek	3.0	5.3	$0.017	0/1	17.2s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 17.2s
#79	GPT-5 Nano medium	OpenAI	3.0	6.7	$0.081	0/1	20.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.081 ردِعمل کا وقت (اوسط) 20.1s

معلومات عامہ درجہ بندی

ماڈلز فلٹر کریں

معلومات عامہ اسکور کے لحاظ سے سرفہرست ماڈلز

معلومات عامہ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز