AI BENCHY श्रेणी
पहेली समाधान रैंकिंग
देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | पहेली समाधान स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #26 | Qwen3.6 Plus medium | Qwen | 10.0 | 7.9 | 3/3 | 6.34s |
| #138 | Ling-2.6-flash none | Inclusionai | 2.9 | 5.0 | 0/3 | 6.51s |
| #9 | GPT-5.5 medium | OpenAI | 10.0 | 8.8 | 3/3 | 6.76s |
| #4 | Gemini 3.1 Pro Preview medium | 10.0 | 9.4 | 3/3 | 6.90s | |
| #133 | DeepSeek V3.2 none | DeepSeek | 7.6 | 5.2 | 2/3 | 6.91s |
| #62 | Step 3.5 Flash medium | Stepfun | 5.3 | 7.2 | 1/3 | 7.22s |
| #86 | Grok 4.1 Fast medium | X AI | 5.3 | 6.5 | 1/3 | 7.40s |
| #89 | Hy3 preview low | Tencent | 5.3 | 6.4 | 1/3 | 7.51s |
| #93 | Qwen3.6 Plus Preview medium | Qwen | 5.3 | 6.3 | 1/3 | 7.52s |
| #126 | gpt-oss-120b none | OpenAI | 6.0 | 5.4 | 1/3 | 8.21s |
| #5 | Qwen3.7 Max medium | Qwen | 10.0 | 9.1 | 3/3 | 8.84s |
| #21 | GPT-5.4 medium | OpenAI | 8.2 | 8.0 | 2/3 | 9.14s |
| #100 | Grok Build 0.1 none | X AI | 6.4 | 6.0 | 1/3 | 9.55s |
| #92 | Laguna M.1 medium | Poolside | 5.3 | 6.4 | 1/3 | 10.2s |
| #71 | Step 3.7 Flash high | Stepfun | 5.3 | 7.0 | 1/3 | 10.2s |