सामान्य ज्ञान मॉडेल क्रमवारी

AI BENCHY श्रेणी

सामान्य ज्ञान मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: एकूण खर्च ↓.

दाखवलेली मॉडेल्स

सरासरी सामान्य ज्ञान स्कोअर

3.1

सर्वोत्तम मॉडेल

Grok 4.20 Multi Agent Beta 0.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह133 अयशस्वी होण्याचे कारण API त्रुटी सह13 अयशस्वी होण्याचे कारण उत्तर नाही सह8

169/169

क्रमांक	मॉडेल	कंपनी	सामान्य ज्ञान स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#4	GPT-5.5 low	OpenAI	3.0	9.3	$0.907	0/1	10.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.907 प्रतिसाद वेळ (सरासरी) 10.1s
#35	Kimi K2.6 medium	Moonshot AI	3.0	7.8	$0.889	0/1	130.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.889 प्रतिसाद वेळ (सरासरी) 130.3s
#69	Grok 4.20 Beta medium	X AI	0.0	6.8	$0.750	0/0	0ms
एकूण चाचण्या 0 चुकीच्या चाचण्या 0 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 0ms
#10	GPT-5.3-Codex medium	OpenAI	2.8	8.9	$0.740	0/1	14.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 14.4s
#73	Mimo V2 Omni medium	Xiaomi	3.0	6.8	$0.683	0/1	234.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 234.2s
#13	Claude Opus 4.7 medium	Anthropic	3.0	8.7	$0.679	0/1	2.25s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.679 प्रतिसाद वेळ (सरासरी) 2.25s
#2	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.667	1/1	5.50s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.667 प्रतिसाद वेळ (सरासरी) 5.50s
#37	Grok 4.3 medium	X AI	3.0	7.7	$0.614	0/1	44.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.614 प्रतिसाद वेळ (सरासरी) 44.5s
#53	Grok 4.20 medium	X AI	3.0	7.3	$0.609	0/1	63.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.609 प्रतिसाद वेळ (सरासरी) 63.5s
#36	Qwen3.5-122B-A10B medium	Qwen	3.0	7.7	$0.588	0/1	52.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.588 प्रतिसाद वेळ (सरासरी) 52.9s
#65	Kimi K2.7 Code medium	Moonshot AI	3.0	7.0	$0.583	0/1	341.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.583 प्रतिसाद वेळ (सरासरी) 341.8s
#8	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.582	1/1	2.75s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.582 प्रतिसाद वेळ (सरासरी) 2.75s
#22	GPT-5.2 medium	OpenAI	3.0	8.4	$0.548	0/1	28.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 28.2s
#160	Grok Build 0.1 none	X AI	3.0	4.2	$0.547	0/1	36.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 36.1s
#57	Claude Opus 4.8 none	Anthropic	3.0	7.2	$0.539	0/1	3.41s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.539 प्रतिसाद वेळ (सरासरी) 3.41s

सामान्य ज्ञान क्रमवारी

मॉडेल फिल्टर करा

सामान्य ज्ञान स्कोअर नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स