सामान्य ज्ञान मॉडेल क्रमवारी

AI BENCHY श्रेणी

सामान्य ज्ञान मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी सामान्य ज्ञान स्कोअर

3.1

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह133 अयशस्वी होण्याचे कारण API त्रुटी सह13 अयशस्वी होण्याचे कारण उत्तर नाही सह8

169/169

क्रमांक	मॉडेल	कंपनी	सामान्य ज्ञान स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#45	GPT-5.3 Chat none	OpenAI	3.0	7.5	$0.433	0/1	4.38s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 4.38s
#46	GPT-5.4 Nano medium	OpenAI	3.0	7.5	$0.107	0/1	4.81s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.107 प्रतिसाद वेळ (सरासरी) 4.81s
#47	Qwen3.6 Flash medium	Qwen	3.0	7.5	$0.288	0/1	122.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.288 प्रतिसाद वेळ (सरासरी) 122.9s
#48	DeepSeek V3.2 medium	DeepSeek	3.0	7.5	$0.044	0/1	84.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 84.0s
#49	Claude Opus 4.7 none	Anthropic	3.0	7.4	$0.505	0/1	1.46s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.505 प्रतिसाद वेळ (सरासरी) 1.46s
#50	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.4	$0.044	0/1	56.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 56.8s
#51	MiMo-V2.5-Pro medium	Xiaomi	3.0	7.4	$0.106	0/1	12.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 12.5s
#53	Grok 4.20 medium	X AI	3.0	7.3	$0.609	0/1	63.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.609 प्रतिसाद वेळ (सरासरी) 63.5s
#54	Hy3 preview medium	Tencent	3.0	7.3	$0.021	0/1	39.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 39.9s
#55	Claude Sonnet 4.6 none	Anthropic	3.0	7.3	$0.316	0/1	4.67s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.316 प्रतिसाद वेळ (सरासरी) 4.67s
#56	GLM 5V Turbo medium	Z.ai	3.0	7.3	$0.457	0/1	41.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 41.0s
#57	Claude Opus 4.8 none	Anthropic	3.0	7.2	$0.539	0/1	3.41s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.539 प्रतिसाद वेळ (सरासरी) 3.41s
#58	DeepSeek V4 Pro none	DeepSeek	3.0	7.2	$0.034	0/1	5.76s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.034 प्रतिसाद वेळ (सरासरी) 5.76s
#59	Gemma 4 26B A4B medium	Google	3.0	7.2	$0.045	0/1	180.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 180.9s
#60	Qwen3.7 Plus none	Qwen	3.0	7.2	$0.023	0/1	1.21s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.023 प्रतिसाद वेळ (सरासरी) 1.21s

सामान्य ज्ञान क्रमवारी

मॉडेल फिल्टर करा

सामान्य ज्ञान स्कोअर नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स