AI BENCHY श्रेणी
पहेली समाधान रैंकिंग
देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.
| रैंक | मॉडल | कंपनी | पहेली समाधान स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #7 | GPT-5.3-Codex medium | OpenAI | 9.0 | 8.6 | 2/3 | 5.12s |
| #10 | Qwen3.5-27B medium | Qwen | 8.2 | 8.4 | 2/3 | 64.6s |
| #11 | Gemini 3.1 Flash Lite Preview high | 7.7 | 8.4 | 2/3 | 46.3s | |
| #14 | Gemma 4 31B medium | 8.8 | 8.3 | 2/3 | 27.6s | |
| #15 | Gemini 2.5 Flash medium | 7.7 | 8.2 | 2/3 | 3.94s | |
| #16 | GPT-5.4 medium | OpenAI | 8.2 | 8.2 | 2/3 | 9.13s |
| #17 | Gemini 3.1 Flash Lite Preview medium | 7.7 | 8.2 | 2/3 | 3.58s | |
| #21 | Gemini 3 Flash Preview none | 7.7 | 8.1 | 2/3 | 1.06s | |
| #24 | Gemma 4 26B A4B medium | 7.9 | 8.0 | 2/3 | 8.52s | |
| #25 | Grok 4.20 Beta medium | X AI | 8.2 | 8.0 | 2/3 | 3.85s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 8.2 | 8.0 | 2/3 | 36.9s |
| #28 | GPT-5.2 Chat none | OpenAI | 7.7 | 7.9 | 2/3 | 4.42s |
| #31 | GLM 5V Turbo medium | Z.ai | 7.7 | 7.8 | 2/3 | 10.9s |
| #33 | GLM 5.1 medium | Z.ai | 8.2 | 7.8 | 2/3 | 23.8s |
| #37 | Claude Opus 4.6 medium | Anthropic | 7.7 | 7.6 | 2/3 | 4.60s |