सामान्य ज्ञान मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि सामान्य ज्ञान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: कुल लागत ↓.

दिखाए गए मॉडल

औसत सामान्य ज्ञान स्कोर

3.1

सर्वश्रेष्ठ मॉडल

Grok 4.20 Multi Agent Beta 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ133 विफलता कारण API त्रुटि के साथ13 विफलता कारण कोई उत्तर नहीं के साथ8

169/169

रैंक	मॉडल	कंपनी	सामान्य ज्ञान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#4	GPT-5.5 low	OpenAI	3.0	9.3	$0.907	0/1	10.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.907 प्रतिक्रिया समय (औसत) 10.1s
#35	Kimi K2.6 medium	Moonshot AI	3.0	7.8	$0.889	0/1	130.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.889 प्रतिक्रिया समय (औसत) 130.3s
#69	Grok 4.20 Beta medium	X AI	0.0	6.8	$0.750	0/0	0ms
कुल टेस्ट 0 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 0ms
#10	GPT-5.3-Codex medium	OpenAI	2.8	8.9	$0.740	0/1	14.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 14.4s
#73	Mimo V2 Omni medium	Xiaomi	3.0	6.8	$0.683	0/1	234.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 234.2s
#13	Claude Opus 4.7 medium	Anthropic	3.0	8.7	$0.679	0/1	2.25s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.679 प्रतिक्रिया समय (औसत) 2.25s
#2	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.667	1/1	5.50s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.667 प्रतिक्रिया समय (औसत) 5.50s
#37	Grok 4.3 medium	X AI	3.0	7.7	$0.614	0/1	44.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.614 प्रतिक्रिया समय (औसत) 44.5s
#53	Grok 4.20 medium	X AI	3.0	7.3	$0.609	0/1	63.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 63.5s
#36	Qwen3.5-122B-A10B medium	Qwen	3.0	7.7	$0.588	0/1	52.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.588 प्रतिक्रिया समय (औसत) 52.9s
#65	Kimi K2.7 Code medium	Moonshot AI	3.0	7.0	$0.583	0/1	341.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.583 प्रतिक्रिया समय (औसत) 341.8s
#8	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.582	1/1	2.75s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.582 प्रतिक्रिया समय (औसत) 2.75s
#22	GPT-5.2 medium	OpenAI	3.0	8.4	$0.548	0/1	28.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 28.2s
#160	Grok Build 0.1 none	X AI	3.0	4.2	$0.547	0/1	36.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 36.1s
#57	Claude Opus 4.8 none	Anthropic	3.0	7.2	$0.539	0/1	3.41s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.539 प्रतिक्रिया समय (औसत) 3.41s

सामान्य ज्ञान रैंकिंग

मॉडल फ़िल्टर करें

सामान्य ज्ञान स्कोर के अनुसार शीर्ष मॉडल

सामान्य ज्ञान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल