सामान्य ज्ञान मॉडेल क्रमवारी

AI BENCHY श्रेणी

सामान्य ज्ञान मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी सामान्य ज्ञान स्कोअर

3.1

सर्वोत्तम मॉडेल

Grok 4.20 Beta 0.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह133 अयशस्वी होण्याचे कारण API त्रुटी सह13 अयशस्वी होण्याचे कारण उत्तर नाही सह8

169/169

क्रमांक	मॉडेल	कंपनी	सामान्य ज्ञान स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#74	Hy3 preview high	Tencent	3.0	6.8	$0.059	0/1	47.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.059 प्रतिसाद वेळ (सरासरी) 47.7s
#75	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.146	0/1	32.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.146 प्रतिसाद वेळ (सरासरी) 32.9s
#76	MiMo-V2.5 medium	Xiaomi	3.0	6.7	$0.063	0/1	51.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.063 प्रतिसाद वेळ (सरासरी) 51.3s
#77	Mimo V2 PRO medium	Xiaomi	3.0	6.7	$0.333	0/1	82.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 82.7s
#78	gpt-oss-120b medium	OpenAI	3.0	6.7	$0.013	0/1	26.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 26.5s
#79	GPT-5 Nano medium	OpenAI	3.0	6.7	$0.081	0/1	20.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.081 प्रतिसाद वेळ (सरासरी) 20.1s
#80	Step 3.5 Flash medium	Stepfun	3.0	6.6	$0.070	0/1	108.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.070 प्रतिसाद वेळ (सरासरी) 108.4s
#81	Qwen3.6 27B medium	Qwen	3.0	6.6	$0.440	0/1	81.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.440 प्रतिसाद वेळ (सरासरी) 81.0s
#82	Gemini 3.1 Flash Lite Preview low	Google	3.0	6.5	$0.026	0/1	1.35s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 1.35s
#84	Gemini 3.1 Flash Lite Preview none	Google	3.0	6.4	$0.018	0/1	814ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 814ms
#85	Gemini 3.1 Flash Lite low	Google	3.0	6.4	$0.028	0/1	1.46s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.028 प्रतिसाद वेळ (सरासरी) 1.46s
#86	Hy3 preview low	Tencent	3.0	6.4	$0.018	0/1	41.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 41.7s
#87	Nemotron 3 Super medium	NVIDIA	3.0	6.3	$0.021	0/1	55.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 55.3s
#88	Gemma 4 31B medium	Google	3.0	6.3	$0.033	0/1	90.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 90.1s
#89	Qwen3.5-35B-A3B medium	Qwen	3.0	6.3	$0.401	0/1	177.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.401 प्रतिसाद वेळ (सरासरी) 177.4s

सामान्य ज्ञान क्रमवारी

मॉडेल फिल्टर करा

सामान्य ज्ञान स्कोअर नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स