AI BENCHY ناکامیاں
API خرابی ناکامیاں
دیکھیں کہ کن AI ماڈلز میں API خرابی سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
| درجہ | ماڈل | کمپنی | API خرابی کی تعداد | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #35 | Gemini 3 PRO Preview medium | 4 | 7.6 | 14/21 | 9.05s | |
| #138 | Ling-2.6-flash none | Inclusionai | 2 | 5.0 | 6/21 | 9.34s |
| #132 | Mistral Small 4 medium | Mistral | 2 | 5.3 | 5/21 | 9.40s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 6.6 | 8/18 | 9.69s |
| #20 | Gemini 3.5 Flash none | 3 | 8.1 | 15/21 | 9.93s | |
| #79 | Hunter Alpha medium | OpenRouter | 1 | 6.7 | 8/18 | 10.3s |
| #111 | Owl Alpha medium | Openrouter | 1 | 5.7 | 8/21 | 11.9s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 1 | 5.7 | 7/21 | 12.4s |
| #156 | Hy3 preview none | Tencent | 4 | 4.4 | 4/21 | 12.9s |
| #133 | DeepSeek V3.2 none | DeepSeek | 4 | 5.2 | 6/21 | 13.8s |
| #92 | Laguna M.1 medium | Poolside | 4 | 6.4 | 9/19 | 14.7s |
| #41 | Nemotron 3 Ultra 550b A55b medium | NVIDIA | 1 | 7.5 | 13/21 | 15.1s |
| #93 | Qwen3.6 Plus Preview medium | Qwen | 8 | 6.3 | 9/19 | 15.2s |
| #33 | Hy3 preview medium | Tencent | 3 | 7.7 | 14/21 | 16.3s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 6 | 4.6 | 4/19 | 17.1s |