AI BENCHY श्रेणी विफलताएँ
डेटा पार्सिंग और निष्कर्षण
गलत उत्तर
डेटा पार्सिंग और निष्कर्षण
गलत उत्तर
देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: विफलता संख्या ↑.
संबंधित विफलता कारण
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.4 | 1/2 | 9.42s |
| #36 | Mercury 2 medium | Inception | 1 | 5.5 | 1/2 | 1.11s |
| #39 | gpt-oss-120b medium | OpenAI | 1 | 5.5 | 1/2 | 1.98s |
| #46 | Kimi K2.5 none | Moonshot AI | 1 | 5.4 | 1/2 | 42.1s |
| #48 | Qwen3 Coder Next none | Qwen | 1 | 5.4 | 1/2 | 1.32s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 5.4 | 1/2 | 4.82s |
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 5.4 | 1/2 | 81.8s |
| #51 | Mercury 2 none | Inception | 1 | 5.5 | 1/2 | 667ms |
| #34 | GPT-5 Nano medium | OpenAI | 2 | 10.0 | 0/2 | 21.4s |
| #43 | MiniMax M2.5 medium | Minimax | 2 | 10.0 | 0/2 | 7.48s |
| #55 | LFM2-24B-A2B none | Liquid | 2 | 10.0 | 0/2 | 714ms |