AI BENCHY श्रेणी विफलताएँ
डेटा पार्सिंग और निष्कर्षण: API त्रुटि
डेटा पार्सिंग और निष्कर्षण
API त्रुटि
देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में API त्रुटि आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.
विफलता के कारण
| रैंक | मॉडल | कंपनी | API त्रुटि संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #32 | Qwen3.5-Flash medium | Qwen | 1 | 7.3 | 1/2 | 57.0s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 1 | 6.5 | 1/2 | 0ms |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 1 | 7.3 | 1/2 | 59.3s |
| #73 | Mistral Small 4 medium | Mistral | 1 | 7.3 | 1/2 | 1.23s |
| #84 | gpt-oss-120b none | OpenAI | 1 | 6.5 | 1/2 | 7.12s |
| #94 | MiMo-V2-Flash none | Xiaomi | 1 | 2.9 | 0/2 | 19.7s |