AI BENCHY श्रेणी
सामान्य ज्ञान रैंकिंग
देखें कि सामान्य ज्ञान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
विफलता के कारण
| रैंक | मॉडल | कंपनी | सामान्य ज्ञान स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #45 | Qwen3.5-Flash medium | Qwen | 3.0 | 7.6 | 0/1 | 49.0s |
| #31 | Qwen3.5-122B-A10B medium | Qwen | 3.0 | 7.9 | 0/1 | 52.9s |
| #48 | DeepSeek V4 Flash high | DeepSeek | 3.0 | 7.6 | 0/1 | 54.5s |
| #85 | Nemotron 3 Super medium | NVIDIA | 3.0 | 6.1 | 0/1 | 55.3s |
| #56 | Seed-2.0-Mini medium | Bytedance Seed | 3.0 | 7.2 | 0/1 | 56.8s |
| #9 | Qwen3.6 Max Preview medium | Qwen | 3.0 | 8.5 | 0/1 | 60.6s |
| #52 | Claude Opus 4.6 medium | Anthropic | 3.0 | 7.4 | 0/1 | 63.2s |
| #66 | Grok 4.20 medium | X AI | 3.0 | 6.9 | 0/1 | 63.5s |
| #19 | GLM 5 medium | Z.ai | 3.0 | 8.1 | 0/1 | 67.4s |
| #106 | MiniMax M2.5 medium | Minimax | 3.0 | 5.5 | 0/1 | 80.8s |
| #70 | Qwen3.6 27B medium | Qwen | 3.0 | 6.8 | 0/1 | 81.0s |
| #37 | MiMo-V2-Pro medium | Xiaomi | 3.0 | 7.7 | 0/1 | 82.7s |
| #69 | Kimi K2.5 medium | Moonshot AI | 3.0 | 6.8 | 0/1 | 83.9s |
| #59 | DeepSeek V3.2 medium | DeepSeek | 3.0 | 7.2 | 0/1 | 84.0s |
| #17 | Qwen3.5-27B medium | Qwen | 3.0 | 8.1 | 0/1 | 85.1s |