सामान्य ज्ञान मॉडेल क्रमवारी

AI BENCHY श्रेणी

सामान्य ज्ञान मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी सामान्य ज्ञान स्कोअर

3.1

सर्वोत्तम मॉडेल

Grok 4.20 Beta 0.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह133 अयशस्वी होण्याचे कारण API त्रुटी सह13 अयशस्वी होण्याचे कारण उत्तर नाही सह8

169/169

क्रमांक	मॉडेल	कंपनी	सामान्य ज्ञान स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#57	Claude Opus 4.8 none	Anthropic	3.0	7.2	$0.539	0/1	3.41s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.539 प्रतिसाद वेळ (सरासरी) 3.41s
#58	DeepSeek V4 Pro none	DeepSeek	3.0	7.2	$0.034	0/1	5.76s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.034 प्रतिसाद वेळ (सरासरी) 5.76s
#59	Gemma 4 26B A4B medium	Google	3.0	7.2	$0.045	0/1	180.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 180.9s
#60	Qwen3.7 Plus none	Qwen	3.0	7.2	$0.023	0/1	1.21s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.023 प्रतिसाद वेळ (सरासरी) 1.21s
#61	GLM 5.2 none	Z.ai	3.0	7.1	$0.076	0/1	3.41s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.076 प्रतिसाद वेळ (सरासरी) 3.41s
#62	MiMo-V2-Flash medium	Xiaomi	3.0	7.1	$0.043	0/1	1.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 1.96s
#63	Step 3.7 Flash high	Stepfun	3.0	7.1	$1.148	0/1	149.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.148 प्रतिसाद वेळ (सरासरी) 149.3s
#64	GLM 5.1 medium	Z.ai	3.0	7.1	$0.292	0/1	29.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.292 प्रतिसाद वेळ (सरासरी) 29.4s
#65	Kimi K2.7 Code medium	Moonshot AI	3.0	7.0	$0.583	0/1	341.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.583 प्रतिसाद वेळ (सरासरी) 341.8s
#67	Gemini 3 Flash Preview none	Google	3.0	6.9	$0.025	0/1	1.07s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 1.07s
#68	Qwen3.7 Max none	Qwen	3.0	6.9	$0.054	0/1	856ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 856ms
#70	Qwen3.5-Flash medium	Qwen	3.0	6.8	$0.080	0/1	49.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.080 प्रतिसाद वेळ (सरासरी) 49.0s
#71	Gemini 3.5 Flash minimal	Google	3.0	6.8	$0.108	0/1	1.76s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 1.76s
#72	Ring-2.6-1T medium	Inclusionai	3.0	6.8	$0.033	0/1	113.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 113.9s
#73	Mimo V2 Omni medium	Xiaomi	3.0	6.8	$0.683	0/1	234.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 234.2s

सामान्य ज्ञान क्रमवारी

मॉडेल फिल्टर करा

सामान्य ज्ञान स्कोअर नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स