AI BENCHY श्रेणी
पहेली समाधान रैंकिंग
देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | पहेली समाधान स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #25 | Grok 4.20 Beta medium | X AI | 8.2 | 8.0 | 2/3 | 3.85s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 6.5 | 7.7 | 1/3 | 3.88s |
| #47 | Grok 4.20 medium | X AI | 6.4 | 7.0 | 1/3 | 3.89s |
| #12 | Gemini 3 PRO Preview medium | 10.0 | 8.4 | 3/3 | 3.91s | |
| #15 | Gemini 2.5 Flash medium | 7.7 | 8.2 | 2/3 | 3.94s | |
| #44 | GPT-5.4 Mini medium | OpenAI | 6.8 | 7.3 | 1/3 | 4.33s |
| #28 | GPT-5.2 Chat none | OpenAI | 7.7 | 7.9 | 2/3 | 4.42s |
| #1 | Gemini 3 Flash Preview medium | 10.0 | 10.0 | 3/3 | 4.43s | |
| #37 | Claude Opus 4.6 medium | Anthropic | 7.7 | 7.6 | 2/3 | 4.60s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 7.0 | 8.1 | 1/3 | 4.71s |
| #76 | Kimi K2.5 none | Moonshot AI | 3.1 | 5.5 | 0/3 | 4.73s |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 10.0 | 8.0 | 3/3 | 4.80s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 7.2 | 6.4 | 1/3 | 5.01s |
| #7 | GPT-5.3-Codex medium | OpenAI | 9.0 | 8.6 | 2/3 | 5.12s |
| #50 | Hunter Alpha medium | OpenRouter | 6.1 | 6.7 | 1/3 | 5.36s |