AI BENCHY زمرہ
پہیلی حل کرنا درجہ بندی
دیکھیں کہ پہیلی حل کرنا میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.
| درجہ | ماڈل | کمپنی | پہیلی حل کرنا اسکور | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #2 | Gemini 3.1 Pro Preview medium | 10.0 | 9.6 | 3/3 | 7.15s | |
| #84 | gpt-oss-120b none | OpenAI | 4.5 | 5.2 | 0/3 | 6.86s |
| #9 | Qwen3.6 Plus Preview medium | Qwen | 10.0 | 8.5 | 3/3 | 6.11s |
| #20 | Qwen3.6 Plus medium | Qwen | 10.0 | 8.1 | 3/3 | 6.11s |
| #5 | Gemini 3 Flash Preview low | 10.0 | 8.8 | 3/3 | 6.11s | |
| #59 | Qwen3.5-Flash none | Qwen | 3.3 | 6.2 | 0/3 | 5.90s |
| #40 | GPT-5.2 medium | OpenAI | 7.7 | 7.5 | 2/3 | 5.47s |
| #18 | GLM 5 Turbo medium | Z.ai | 7.3 | 8.1 | 1/3 | 5.44s |
| #50 | Hunter Alpha medium | OpenRouter | 6.1 | 6.7 | 1/3 | 5.36s |
| #7 | GPT-5.3-Codex medium | OpenAI | 9.0 | 8.6 | 2/3 | 5.12s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 7.2 | 6.4 | 1/3 | 5.01s |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 10.0 | 8.0 | 3/3 | 4.80s |
| #76 | Kimi K2.5 none | Moonshot AI | 3.1 | 5.5 | 0/3 | 4.73s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 7.0 | 8.1 | 1/3 | 4.71s |
| #37 | Claude Opus 4.6 medium | Anthropic | 7.7 | 7.6 | 2/3 | 4.60s |