सामान्य ज्ञान मॉडेल क्रमवारी

AI BENCHY श्रेणी

सामान्य ज्ञान मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी सामान्य ज्ञान स्कोअर

3.1

सर्वोत्तम मॉडेल

Kimi K2.7 Code 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह133 अयशस्वी होण्याचे कारण API त्रुटी सह13 अयशस्वी होण्याचे कारण उत्तर नाही सह8

169/169

क्रमांक	मॉडेल	कंपनी	सामान्य ज्ञान स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#12	Claude Opus 4.8 medium	Anthropic	3.0	8.8	$1.107	0/1	6.14s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.107 प्रतिसाद वेळ (सरासरी) 6.14s
#133	Mistral Small 4 medium	Mistral	3.0	5.1	$0.068	0/1	5.92s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 5.92s
#58	DeepSeek V4 Pro none	DeepSeek	3.0	7.2	$0.034	0/1	5.76s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.034 प्रतिसाद वेळ (सरासरी) 5.76s
#2	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.667	1/1	5.50s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.667 प्रतिसाद वेळ (सरासरी) 5.50s
#90	GPT-5.5 none	OpenAI	3.0	6.3	$0.231	0/1	5.01s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 5.01s
#66	Gemini 3.5 Flash none	Google	2.8	7.0	$1.079	0/1	4.87s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 4.87s
#46	GPT-5.4 Nano medium	OpenAI	3.0	7.5	$0.107	0/1	4.81s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.107 प्रतिसाद वेळ (सरासरी) 4.81s
#55	Claude Sonnet 4.6 none	Anthropic	3.0	7.3	$0.316	0/1	4.67s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.316 प्रतिसाद वेळ (सरासरी) 4.67s
#45	GPT-5.3 Chat none	OpenAI	3.0	7.5	$0.433	0/1	4.38s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 4.38s
#120	Qwen3.6 27B none	Qwen	3.0	5.5	$0.028	0/1	4.03s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.028 प्रतिसाद वेळ (सरासरी) 4.03s
#1	Gemini 3.5 Flash high	Google	10.0	9.8	$1.115	1/1	3.94s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.115 प्रतिसाद वेळ (सरासरी) 3.94s
#118	Kimi K2.5 none	Moonshot AI	3.0	5.5	$0.027	0/1	3.90s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 3.90s
#134	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.007	0/1	3.89s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 3.89s
#101	GLM 5 none	Z.ai	3.0	6.0	$0.027	0/1	3.62s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 3.62s
#57	Claude Opus 4.8 none	Anthropic	3.0	7.2	$0.539	0/1	3.41s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.539 प्रतिसाद वेळ (सरासरी) 3.41s

सामान्य ज्ञान क्रमवारी

मॉडेल फिल्टर करा

सामान्य ज्ञान स्कोअर नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स