AI BENCHY श्रेणी
कोडिंग रैंकिंग
देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | कोडिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #102 | GLM 5.1 none | Z.ai | 4.3 | 5.8 | 0/2 | 6.33s |
| #12 | Gemini 3 Flash Preview low | 7.3 | 8.6 | 1/2 | 6.66s | |
| #72 | Claude Sonnet 4.6 none | Anthropic | 6.8 | 7.0 | 1/2 | 6.73s |
| #70 | MiMo-V2-Flash medium | Xiaomi | 4.1 | 7.1 | 0/2 | 7.20s |
| #30 | GPT-5.2 Chat none | OpenAI | 8.2 | 7.9 | 1/2 | 8.05s |
| #95 | DeepSeek V4 Pro none | DeepSeek | 5.4 | 6.0 | 0/2 | 8.27s |
| #119 | gpt-oss-120b none | OpenAI | 4.3 | 5.4 | 0/1 | 9.57s |
| #6 | Gemini 3.5 Flash medium | 6.8 | 9.0 | 1/2 | 9.91s | |
| #55 | GPT-5.3 Chat none | OpenAI | 6.9 | 7.4 | 1/2 | 10.5s |
| #148 | Ling-2.6-1T none | Inclusionai | 5.5 | 4.5 | 0/1 | 10.6s |
| #130 | Ling-2.6-flash none | Inclusionai | 10.0 | 5.3 | 1/1 | 11.2s |
| #138 | Qwen3.6 35B A3B none | Qwen | 6.8 | 4.9 | 1/2 | 12.3s |
| #140 | Trinity Large Preview none | Arcee AI | 4.9 | 4.8 | 0/1 | 14.3s |
| #82 | Laguna Xs.2 medium | Poolside | 6.3 | 6.6 | 0/1 | 14.4s |
| #8 | GPT-5.5 low | OpenAI | 10.0 | 8.9 | 2/2 | 14.4s |