AI BENCHY श्रेणी
संयुक्त रैंकिंग
देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | संयुक्त स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #72 | Hunter Alpha none | OpenRouter | 3.0 | 5.7 | 0/1 | 15.2s |
| #47 | Grok 4.20 medium | X AI | 10.0 | 7.0 | 1/1 | 17.4s |
| #32 | Qwen3.5-Flash medium | Qwen | 10.0 | 7.8 | 1/1 | 17.8s |
| #44 | GPT-5.4 Mini medium | OpenAI | 10.0 | 7.3 | 1/1 | 17.8s |
| #4 | Claude Opus 4.7 none | Anthropic | 9.5 | 9.2 | 1/1 | 18.3s |
| #76 | Kimi K2.5 none | Moonshot AI | 2.8 | 5.5 | 0/1 | 19.2s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 10.0 | 7.7 | 1/1 | 19.3s |
| #7 | GPT-5.3-Codex medium | OpenAI | 10.0 | 8.6 | 1/1 | 19.6s |
| #88 | Nemotron 3 Super none | NVIDIA | 3.0 | 5.1 | 0/1 | 20.0s |
| #16 | GPT-5.4 medium | OpenAI | 10.0 | 8.2 | 1/1 | 20.6s |
| #25 | Grok 4.20 Beta medium | X AI | 10.0 | 8.0 | 1/1 | 20.9s |
| #3 | Claude Opus 4.7 medium | Anthropic | 10.0 | 9.2 | 1/1 | 21.4s |
| #42 | Claude Sonnet 4.6 none | Anthropic | 9.5 | 7.4 | 1/1 | 23.8s |
| #38 | GPT-5.4 Nano medium | OpenAI | 9.8 | 7.6 | 1/1 | 24.1s |
| #73 | Mistral Small 4 medium | Mistral | 3.0 | 5.7 | 0/1 | 25.3s |