AI BENCHY श्रेणी विफलताएँ
डेटा पार्सिंग और निष्कर्षण: गलत उत्तर
डेटा पार्सिंग और निष्कर्षण
गलत उत्तर
देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
विफलता के कारण
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #150 | Qwen3 Coder Next medium | Qwen | 1 | 6.5 | 1/2 | 81.8s |
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 3.0 | 0/2 | 45.9s |
| #135 | Kimi K2.5 none | Moonshot AI | 1 | 7.3 | 1/2 | 42.1s |
| #75 | Ring-2.6-1T medium | Inclusionai | 1 | 6.5 | 1/2 | 37.4s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 6.3 | 1/2 | 21.9s |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 3.7 | 0/2 | 21.4s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 7.3 | 1/2 | 18.8s |
| #119 | Cobuddy medium | Baidu | 1 | 6.3 | 1/2 | 17.4s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 7.3 | 1/2 | 17.2s |
| #10 | Claude Opus 4.8 medium | Anthropic | 1 | 7.1 | 1/2 | 12.3s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 6.3 | 1/2 | 9.42s |
| #100 | Grok Build 0.1 none | X AI | 1 | 3.8 | 0/2 | 9.33s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 6.5 | 1/2 | 8.48s |
| #129 | MiniMax M2.5 medium | Minimax | 2 | 4.6 | 0/2 | 7.48s |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 2.7 | 0/2 | 6.33s |