معلومات عامہ ماڈل درجہ بندی

AI BENCHY زمرہ

دیکھیں کہ معلومات عامہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: کل لاگت ↑.

دکھائے گئے ماڈلز

اوسط معلومات عامہ اسکور

3.1

بہترین ماڈل

North Mini Code 3.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ133 ناکامی کی وجہ API خرابی کے ساتھ13 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ8

169/169

درجہ	ماڈل	کمپنی	معلومات عامہ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#106	Qwen3.5 Plus 2026-02-15 none	Qwen	3.0	5.8	$0.016	0/1	1.11s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 1.11s
#119	MiMo-V2.5-Pro none	Xiaomi	3.0	5.5	$0.017	0/1	1.89s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 1.89s
#126	DeepSeek V3.2 none	DeepSeek	3.0	5.3	$0.017	0/1	17.2s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 17.2s
#84	Gemini 3.1 Flash Lite Preview none	Google	3.0	6.4	$0.018	0/1	814ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 814ms
#86	Hy3 preview low	Tencent	3.0	6.4	$0.018	0/1	41.7s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 41.7s
#92	Seed-2.0-Lite none	Bytedance Seed	3.0	6.2	$0.019	0/1	1.96s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 1.96s
#125	Qwen3.5-122B-A10B none	Qwen	3.0	5.3	$0.020	0/1	295ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 295ms
#168	Step 3.5 Flash none	Stepfun	3.0	2.6	$0.020	0/1	114.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 114.1s
#87	Nemotron 3 Super medium	NVIDIA	3.0	6.3	$0.021	0/1	55.3s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 55.3s
#114	Mimo V2 Omni none	Xiaomi	3.0	5.7	$0.021	0/1	1.30s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 1.30s
#54	Hy3 preview medium	Tencent	3.0	7.3	$0.021	0/1	39.9s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 39.9s
#60	Qwen3.7 Plus none	Qwen	3.0	7.2	$0.023	0/1	1.21s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.023 ردِعمل کا وقت (اوسط) 1.21s
#67	Gemini 3 Flash Preview none	Google	3.0	6.9	$0.025	0/1	1.07s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 1.07s
#159	MiMo-V2-Flash none	Xiaomi	3.0	4.3	$0.025	0/1	1.82s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 1.82s
#82	Gemini 3.1 Flash Lite Preview low	Google	3.0	6.5	$0.026	0/1	1.35s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 1.35s

معلومات عامہ درجہ بندی

ماڈلز فلٹر کریں

معلومات عامہ اسکور کے لحاظ سے سرفہرست ماڈلز

معلومات عامہ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز