AI BENCHY श्रेणी
डोमेन-विशिष्ट रैंकिंग
देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.
| रैंक | मॉडल | कंपनी | डोमेन-विशिष्ट स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #55 | GLM 5.1 medium | Z.ai | 5.3 | 7.3 | 1/3 | 29.8s |
| #56 | MiMo-V2.5 medium | Xiaomi | 5.3 | 7.3 | 1/3 | 34.5s |
| #57 | Step 3.7 Flash low | Stepfun | 5.3 | 7.3 | 1/3 | 43.3s |
| #58 | Gemini 3.1 Flash Lite Preview none | 5.3 | 7.2 | 1/3 | 942ms | |
| #59 | GLM 5V Turbo medium | Z.ai | 5.3 | 7.2 | 1/3 | 38.1s |
| #60 | Kimi K2.6 medium | Moonshot AI | 5.3 | 7.2 | 1/3 | 202.4s |
| #61 | Gemini 3.1 Flash Lite low | 5.3 | 7.2 | 1/3 | 1.52s | |
| #62 | Step 3.5 Flash medium | Stepfun | 5.3 | 7.2 | 1/3 | 170.5s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 5.9 | 7.2 | 1/3 | 96.0s |
| #65 | Grok 4.20 medium | X AI | 5.3 | 7.1 | 1/3 | 27.0s |
| #67 | MiniMax M3 medium | Minimax | 5.5 | 7.1 | 1/3 | 233.1s |
| #68 | Claude Opus 4.8 none | Anthropic | 5.3 | 7.0 | 1/3 | 1.66s |
| #70 | GPT-5.4 Nano medium | OpenAI | 5.9 | 7.0 | 1/3 | 38.2s |
| #82 | Hy3 preview high | Tencent | 5.3 | 6.6 | 1/3 | 109.0s |
| #86 | Grok 4.1 Fast medium | X AI | 5.8 | 6.5 | 1/3 | 121.8s |