AI BENCHY श्रेणी विफलताएँ
डेटा पार्सिंग और निष्कर्षण
गलत उत्तर
डेटा पार्सिंग और निष्कर्षण
गलत उत्तर
देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.
संबंधित विफलता कारण
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #34 | GPT-5 Nano medium | OpenAI | 2 | 10.0 | 0/2 | 21.4s |
| #43 | MiniMax M2.5 medium | Minimax | 2 | 10.0 | 0/2 | 7.48s |
| #55 | LFM2-24B-A2B none | Liquid | 2 | 10.0 | 0/2 | 714ms |
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.4 | 1/2 | 9.42s |
| #36 | Mercury 2 medium | Inception | 1 | 5.5 | 1/2 | 1.11s |
| #39 | gpt-oss-120b medium | OpenAI | 1 | 5.5 | 1/2 | 1.98s |
| #46 | Kimi K2.5 none | Moonshot AI | 1 | 5.4 | 1/2 | 42.1s |
| #48 | Qwen3 Coder Next none | Qwen | 1 | 5.4 | 1/2 | 1.32s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 5.4 | 1/2 | 4.82s |
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 5.4 | 1/2 | 81.8s |
| #51 | Mercury 2 none | Inception | 1 | 5.5 | 1/2 | 667ms |