सामान्य ज्ञान मॉडेल क्रमवारी

AI BENCHY श्रेणी

सामान्य ज्ञान मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी सामान्य ज्ञान स्कोअर

3.1

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह133 अयशस्वी होण्याचे कारण API त्रुटी सह13 अयशस्वी होण्याचे कारण उत्तर नाही सह8

169/169

क्रमांक	मॉडेल	कंपनी	सामान्य ज्ञान स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#15	GLM 5 medium	Z.ai	3.0	8.6	$0.228	0/1	67.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.228 प्रतिसाद वेळ (सरासरी) 67.4s
#16	GPT-5 Mini medium	OpenAI	3.0	8.5	$0.159	0/1	9.99s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.159 प्रतिसाद वेळ (सरासरी) 9.99s
#17	GPT-5.4 medium	OpenAI	3.0	8.5	$1.210	0/1	14.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.210 प्रतिसाद वेळ (सरासरी) 14.0s
#18	Seed-2.0-Lite medium	Bytedance Seed	3.0	8.5	$0.175	0/1	48.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.175 प्रतिसाद वेळ (सरासरी) 48.3s
#19	GPT-5.2 Chat none	OpenAI	3.0	8.5	$0.393	0/1	6.89s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.393 प्रतिसाद वेळ (सरासरी) 6.89s
#20	Step 3.7 Flash medium	Stepfun	3.0	8.5	$0.376	0/1	114.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.376 प्रतिसाद वेळ (सरासरी) 114.0s
#21	GLM 5 Turbo medium	Z.ai	3.0	8.4	$0.323	0/1	40.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 40.2s
#22	GPT-5.2 medium	OpenAI	3.0	8.4	$0.548	0/1	28.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 28.2s
#23	DeepSeek V4 Flash high	DeepSeek	3.0	8.3	$0.027	0/1	54.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 54.5s
#24	Gemini 2.5 Flash medium	Google	3.0	8.2	$0.379	0/1	2.76s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.379 प्रतिसाद वेळ (सरासरी) 2.76s
#25	Qwen3.7 Plus medium	Qwen	3.0	8.2	$0.177	0/1	91.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 91.1s
#26	Nemotron 3 Ultra 550b A55b medium	NVIDIA	3.0	8.1	$0.158	0/1	38.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.158 प्रतिसाद वेळ (सरासरी) 38.5s
#27	GPT-5.4 Mini medium	OpenAI	3.0	8.0	$0.526	0/1	30.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.526 प्रतिसाद वेळ (सरासरी) 30.1s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	3.0	8.0	$0.310	0/1	103.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.310 प्रतिसाद वेळ (सरासरी) 103.8s
#29	Qwen3.5-27B medium	Qwen	3.0	7.9	$0.536	0/1	85.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.536 प्रतिसाद वेळ (सरासरी) 85.1s

सामान्य ज्ञान क्रमवारी

मॉडेल फिल्टर करा

सामान्य ज्ञान स्कोअर नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स