AI BENCHY زمرہ
پہیلی حل کرنا درجہ بندی
دیکھیں کہ پہیلی حل کرنا میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.
| درجہ | ماڈل | کمپنی | پہیلی حل کرنا اسکور | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #7 | GPT-5.3-Codex medium | OpenAI | 9.0 | 8.6 | 2/3 | 5.12s |
| #10 | Qwen3.5-27B medium | Qwen | 8.2 | 8.4 | 2/3 | 64.6s |
| #11 | Gemini 3.1 Flash Lite Preview high | 7.7 | 8.4 | 2/3 | 46.3s | |
| #14 | Gemma 4 31B medium | 8.8 | 8.3 | 2/3 | 27.6s | |
| #15 | Gemini 2.5 Flash medium | 7.7 | 8.2 | 2/3 | 3.94s | |
| #16 | GPT-5.4 medium | OpenAI | 8.2 | 8.2 | 2/3 | 9.13s |
| #17 | Gemini 3.1 Flash Lite Preview medium | 7.7 | 8.2 | 2/3 | 3.58s | |
| #21 | Gemini 3 Flash Preview none | 7.7 | 8.1 | 2/3 | 1.06s | |
| #24 | Gemma 4 26B A4B medium | 7.9 | 8.0 | 2/3 | 8.52s | |
| #25 | Grok 4.20 Beta medium | X AI | 8.2 | 8.0 | 2/3 | 3.85s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 8.2 | 8.0 | 2/3 | 36.9s |
| #28 | GPT-5.2 Chat none | OpenAI | 7.7 | 7.9 | 2/3 | 4.42s |
| #31 | GLM 5V Turbo medium | Z.ai | 7.7 | 7.8 | 2/3 | 10.9s |
| #33 | GLM 5.1 medium | Z.ai | 8.2 | 7.8 | 2/3 | 23.8s |
| #37 | Claude Opus 4.6 medium | Anthropic | 7.7 | 7.6 | 2/3 | 4.60s |