सामान्य ज्ञान मॉडेल क्रमवारी

AI BENCHY श्रेणी

सामान्य ज्ञान मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी सामान्य ज्ञान स्कोअर

3.1

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह133 अयशस्वी होण्याचे कारण API त्रुटी सह13 अयशस्वी होण्याचे कारण उत्तर नाही सह8

169/169

क्रमांक	मॉडेल	कंपनी	सामान्य ज्ञान स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#32	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.8	$0.068	0/1	2.68s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 2.68s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	3.0	7.8	$0.317	0/1	92.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 92.6s
#34	Gemini 3.1 Flash Lite medium	Google	3.0	7.8	$0.071	0/1	3.08s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.071 प्रतिसाद वेळ (सरासरी) 3.08s
#35	Kimi K2.6 medium	Moonshot AI	3.0	7.8	$0.889	0/1	130.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.889 प्रतिसाद वेळ (सरासरी) 130.3s
#36	Qwen3.5-122B-A10B medium	Qwen	3.0	7.7	$0.588	0/1	52.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.588 प्रतिसाद वेळ (सरासरी) 52.9s
#37	Grok 4.3 medium	X AI	3.0	7.7	$0.614	0/1	44.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.614 प्रतिसाद वेळ (सरासरी) 44.5s
#38	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$2.053	0/1	63.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $2.053 प्रतिसाद वेळ (सरासरी) 63.2s
#39	Step 3.7 Flash low	Stepfun	3.0	7.7	$0.341	0/1	124.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.341 प्रतिसाद वेळ (सरासरी) 124.8s
#40	MiniMax M3 medium	Minimax	3.0	7.6	$0.131	0/1	100.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.131 प्रतिसाद वेळ (सरासरी) 100.8s
#41	DeepSeek V4 Pro high	DeepSeek	3.0	7.6	$0.157	0/1	34.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.157 प्रतिसाद वेळ (सरासरी) 34.0s
#42	Grok Build 0.1 medium	X AI	3.0	7.6	$0.927	0/1	53.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.927 प्रतिसाद वेळ (सरासरी) 53.5s
#43	Kimi K2.5 medium	Moonshot AI	3.0	7.5	$0.348	0/1	83.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.348 प्रतिसाद वेळ (सरासरी) 83.9s
#44	Mercury 2 medium	Inception	3.0	7.5	$0.058	0/1	2.58s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.058 प्रतिसाद वेळ (सरासरी) 2.58s
#45	GPT-5.3 Chat none	OpenAI	3.0	7.5	$0.433	0/1	4.38s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 4.38s
#46	GPT-5.4 Nano medium	OpenAI	3.0	7.5	$0.107	0/1	4.81s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.107 प्रतिसाद वेळ (सरासरी) 4.81s

सामान्य ज्ञान क्रमवारी

मॉडेल फिल्टर करा

सामान्य ज्ञान स्कोअर नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स