AI BENCHY زمرہ ناکامیاں
ڈیٹا پارسنگ اور استخراج: غلط جواب
ڈیٹا پارسنگ اور استخراج
غلط جواب
دیکھیں کہ ڈیٹا پارسنگ اور استخراج میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #92 | Qwen3 Coder Next medium | Qwen | 1 | 6.5 | 1/2 | 81.8s |
| #76 | Kimi K2.5 none | Moonshot AI | 1 | 7.3 | 1/2 | 42.1s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 6.3 | 1/2 | 21.9s |
| #57 | GPT-5 Nano medium | OpenAI | 2 | 3.7 | 0/2 | 21.4s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 7.3 | 1/2 | 17.2s |
| #64 | DeepSeek V3.2 none | DeepSeek | 1 | 6.3 | 1/2 | 9.42s |
| #71 | MiniMax M2.5 medium | Minimax | 2 | 4.6 | 0/2 | 7.48s |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 7.3 | 1/2 | 4.82s |
| #68 | gpt-oss-120b medium | OpenAI | 1 | 6.4 | 1/2 | 1.98s |
| #87 | Qwen3 Coder Next none | Qwen | 1 | 6.5 | 1/2 | 1.32s |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 6.5 | 1/2 | 1.11s |
| #54 | Mercury 2 medium | Inception | 1 | 7.3 | 1/2 | 1.11s |
| #85 | Elephant none | Openrouter | 1 | 6.5 | 1/2 | 1.04s |
| #81 | Elephant medium | Openrouter | 1 | 6.5 | 1/2 | 979ms |
| #98 | LFM2-24B-A2B none | Liquid | 2 | 3.0 | 0/2 | 714ms |