AI BENCHY श्रेणी
पहेली समाधान रैंकिंग
देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | पहेली समाधान स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #2 | Gemini 3.1 Pro Preview medium | 10.0 | 9.6 | 3/3 | 7.15s | |
| #84 | gpt-oss-120b none | OpenAI | 4.5 | 5.2 | 0/3 | 6.86s |
| #9 | Qwen3.6 Plus Preview medium | Qwen | 10.0 | 8.5 | 3/3 | 6.11s |
| #20 | Qwen3.6 Plus medium | Qwen | 10.0 | 8.1 | 3/3 | 6.11s |
| #5 | Gemini 3 Flash Preview low | 10.0 | 8.8 | 3/3 | 6.11s | |
| #59 | Qwen3.5-Flash none | Qwen | 3.3 | 6.2 | 0/3 | 5.90s |
| #40 | GPT-5.2 medium | OpenAI | 7.7 | 7.5 | 2/3 | 5.47s |
| #18 | GLM 5 Turbo medium | Z.ai | 7.3 | 8.1 | 1/3 | 5.44s |
| #50 | Hunter Alpha medium | OpenRouter | 6.1 | 6.7 | 1/3 | 5.36s |
| #7 | GPT-5.3-Codex medium | OpenAI | 9.0 | 8.6 | 2/3 | 5.12s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 7.2 | 6.4 | 1/3 | 5.01s |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 10.0 | 8.0 | 3/3 | 4.80s |
| #76 | Kimi K2.5 none | Moonshot AI | 3.1 | 5.5 | 0/3 | 4.73s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 7.0 | 8.1 | 1/3 | 4.71s |
| #37 | Claude Opus 4.6 medium | Anthropic | 7.7 | 7.6 | 2/3 | 4.60s |