AI BENCHY श्रेणी विफलताएँ
डेटा पार्सिंग और निष्कर्षण
गलत उत्तर
डेटा पार्सिंग और निष्कर्षण
गलत उत्तर
देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
संबंधित विफलता कारण
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #51 | Mercury 2 none | Inception | 1 | 5.5 | 1/2 | 667ms |
| #55 | LFM2-24B-A2B none | Liquid | 2 | 10.0 | 0/2 | 714ms |
| #36 | Mercury 2 medium | Inception | 1 | 5.5 | 1/2 | 1.11s |
| #48 | Qwen3 Coder Next none | Qwen | 1 | 5.4 | 1/2 | 1.32s |
| #39 | gpt-oss-120b medium | OpenAI | 1 | 5.5 | 1/2 | 1.98s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 5.4 | 1/2 | 4.82s |
| #43 | MiniMax M2.5 medium | Minimax | 2 | 10.0 | 0/2 | 7.48s |
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.4 | 1/2 | 9.42s |
| #34 | GPT-5 Nano medium | OpenAI | 2 | 10.0 | 0/2 | 21.4s |
| #46 | Kimi K2.5 none | Moonshot AI | 1 | 5.4 | 1/2 | 42.1s |
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 5.4 | 1/2 | 81.8s |