AI BENCHY श्रेणी
पहेली समाधान रैंकिंग
देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | पहेली समाधान स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #111 | Owl Alpha medium | Openrouter | 5.3 | 5.7 | 1/3 | 3.40s |
| #2 | Gemini 3.5 Flash high | 10.0 | 9.6 | 3/3 | 3.23s | |
| #28 | Gemini 2.5 Flash medium | 7.7 | 7.8 | 2/3 | 3.18s | |
| #105 | Nemotron 3 Super medium | NVIDIA | 3.0 | 5.8 | 0/3 | 3.15s |
| #20 | Gemini 3.5 Flash none | 10.0 | 8.1 | 3/3 | 3.13s | |
| #63 | GPT-5.3 Chat none | OpenAI | 10.0 | 7.2 | 3/3 | 2.99s |
| #110 | Seed-2.0-Lite none | Bytedance Seed | 5.3 | 5.8 | 1/3 | 2.78s |
| #68 | Claude Opus 4.8 none | Anthropic | 7.7 | 7.0 | 2/3 | 2.74s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 7.7 | 6.3 | 2/3 | 2.71s |
| #74 | Qwen3.6 Max Preview none | Qwen | 10.0 | 6.9 | 3/3 | 2.65s |
| #134 | GLM 5 Turbo none | Z.ai | 5.5 | 5.2 | 1/3 | 2.65s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 7.7 | 6.8 | 2/3 | 2.53s |
| #8 | Claude Opus 4.7 none | Anthropic | 10.0 | 8.9 | 3/3 | 2.46s |
| #11 | Claude Opus 4.7 medium | Anthropic | 10.0 | 8.7 | 3/3 | 2.43s |
| #109 | GLM 5V Turbo none | Z.ai | 5.3 | 5.8 | 1/3 | 2.40s |