AI BENCHY श्रेणी
संयुक्त रैंकिंग
देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | संयुक्त स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #49 | Qwen3.5-Flash medium | Qwen | 10.0 | 7.4 | 1/1 | 17.8s |
| #52 | Claude Sonnet 4.6 medium | Anthropic | 10.0 | 7.4 | 1/1 | 46.4s |
| #53 | Gemini 3.1 Flash Lite high | 10.0 | 7.3 | 1/1 | 149.2s | |
| #54 | GPT-5 Mini medium | OpenAI | 10.0 | 7.3 | 1/1 | 88.2s |
| #56 | MiMo-V2.5 medium | Xiaomi | 10.0 | 7.3 | 1/1 | 16.9s |
| #57 | Step 3.7 Flash low | Stepfun | 10.0 | 7.3 | 1/1 | 7.98s |
| #60 | Kimi K2.6 medium | Moonshot AI | 10.0 | 7.2 | 1/1 | 41.0s |
| #62 | Step 3.5 Flash medium | Stepfun | 10.0 | 7.2 | 1/1 | 29.6s |
| #63 | GPT-5.3 Chat none | OpenAI | 10.0 | 7.2 | 1/1 | 12.0s |
| #65 | Grok 4.20 medium | X AI | 10.0 | 7.1 | 1/1 | 17.4s |
| #67 | MiniMax M3 medium | Minimax | 10.0 | 7.1 | 1/1 | 65.3s |
| #69 | Claude Opus 4.6 medium | Anthropic | 10.0 | 7.0 | 1/1 | 76.7s |
| #71 | Step 3.7 Flash high | Stepfun | 10.0 | 7.0 | 1/1 | 13.0s |
| #72 | DeepSeek V3.2 medium | DeepSeek | 10.0 | 7.0 | 1/1 | 93.1s |
| #73 | Seed-2.0-Mini medium | Bytedance Seed | 10.0 | 6.9 | 1/1 | 262.8s |