सामान्य ज्ञान मॉडेल क्रमवारी

AI BENCHY श्रेणी

सामान्य ज्ञान मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी सामान्य ज्ञान स्कोअर

3.1

सर्वोत्तम मॉडेल

Grok 4.20 Beta 0.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह133 अयशस्वी होण्याचे कारण API त्रुटी सह13 अयशस्वी होण्याचे कारण उत्तर नाही सह8

169/169

क्रमांक	मॉडेल	कंपनी	सामान्य ज्ञान स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#42	Grok Build 0.1 medium	X AI	3.0	7.6	$0.927	0/1	53.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.927 प्रतिसाद वेळ (सरासरी) 53.5s
#23	DeepSeek V4 Flash high	DeepSeek	3.0	8.3	$0.027	0/1	54.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 54.5s
#87	Nemotron 3 Super medium	NVIDIA	3.0	6.3	$0.021	0/1	55.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 55.3s
#50	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.4	$0.044	0/1	56.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 56.8s
#11	Qwen3.6 Max Preview medium	Qwen	3.0	8.9	$0.960	0/1	60.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.960 प्रतिसाद वेळ (सरासरी) 60.6s
#38	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$2.053	0/1	63.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $2.053 प्रतिसाद वेळ (सरासरी) 63.2s
#53	Grok 4.20 medium	X AI	3.0	7.3	$0.609	0/1	63.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.609 प्रतिसाद वेळ (सरासरी) 63.5s
#15	GLM 5 medium	Z.ai	3.0	8.6	$0.228	0/1	67.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.228 प्रतिसाद वेळ (सरासरी) 67.4s
#146	MiniMax M2.5 medium	Minimax	3.0	4.7	$0.303	0/1	80.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.303 प्रतिसाद वेळ (सरासरी) 80.8s
#81	Qwen3.6 27B medium	Qwen	3.0	6.6	$0.440	0/1	81.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.440 प्रतिसाद वेळ (सरासरी) 81.0s
#77	Mimo V2 PRO medium	Xiaomi	3.0	6.7	$0.333	0/1	82.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 82.7s
#43	Kimi K2.5 medium	Moonshot AI	3.0	7.5	$0.348	0/1	83.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.348 प्रतिसाद वेळ (सरासरी) 83.9s
#48	DeepSeek V3.2 medium	DeepSeek	3.0	7.5	$0.044	0/1	84.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 84.0s
#29	Qwen3.5-27B medium	Qwen	3.0	7.9	$0.536	0/1	85.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.536 प्रतिसाद वेळ (सरासरी) 85.1s
#88	Gemma 4 31B medium	Google	3.0	6.3	$0.033	0/1	90.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 90.1s

←

1 9 10 11 12

→

सामान्य ज्ञान क्रमवारी

मॉडेल फिल्टर करा

सामान्य ज्ञान स्कोअर नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स