AI BENCHY श्रेणी
सामान्य ज्ञान क्रमवारी
सामान्य ज्ञान मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.
अयशस्वी होण्याची कारणे
| क्रमांक | मॉडेल | कंपनी | सामान्य ज्ञान स्कोअर | स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #122 | Nemotron 3 Super none | NVIDIA | 3.0 | 5.2 | 0/1 | 8.94s |
| #67 | GPT-5 Mini medium | OpenAI | 3.0 | 6.8 | 0/1 | 9.99s |
| #6 | GPT-5.5 low | OpenAI | 3.0 | 8.9 | 0/1 | 10.1s |
| #136 | GLM 4.7 Flash medium | Z.ai | 3.0 | 4.5 | 0/1 | 11.1s |
| #26 | GPT-5.4 medium | OpenAI | 3.0 | 7.9 | 0/1 | 14.0s |
| #13 | GPT-5.3-Codex medium | OpenAI | 2.8 | 8.2 | 0/1 | 14.4s |
| #84 | DeepSeek V4 Pro none | DeepSeek | 3.0 | 6.2 | 0/1 | 15.6s |
| #104 | DeepSeek V3.2 none | DeepSeek | 3.0 | 5.7 | 0/1 | 17.2s |
| #83 | GPT-5 Nano medium | OpenAI | 3.0 | 6.2 | 0/1 | 20.1s |
| #123 | MiniMax M2.7 medium | Minimax | 3.0 | 5.1 | 0/1 | 22.8s |
| #77 | Grok 4.1 Fast medium | X AI | 3.0 | 6.5 | 0/1 | 25.5s |
| #99 | gpt-oss-120b medium | OpenAI | 3.0 | 5.7 | 0/1 | 26.5s |
| #58 | GPT-5.2 medium | OpenAI | 3.0 | 7.2 | 0/1 | 28.2s |
| #47 | GLM 5.1 medium | Z.ai | 3.0 | 7.6 | 0/1 | 29.4s |
| #35 | Claude Sonnet 4.6 medium | Anthropic | 3.0 | 7.8 | 0/1 | 30.1s |