Kushindwa kwa AI BENCHY
Kushindwa kwa Hitilafu ya API
Ona ni modeli gani za AI hukutana na Hitilafu ya API mara nyingi zaidi ili utambue hatari za utegemevu kabla ya kuchagua. Panga kwa: Majaribio sahihi ↑.
Modeli zilizoonyeshwa
15
Jumla ya kushindwa
144
Modeli iliyoathirika zaidi
Nemotron 3 Nano Omni 30b A3b Reasoning 6Kategoria
Katika kategoria Uandishi wa msimbo43 Katika kategoria Uchanganuzi na uchimbaji wa data16 Katika kategoria Mwito wa zana15 Katika kategoria Mbinu za kupinga AI13 Katika kategoria Mchanganyiko13 Katika kategoria Utatuzi wa mafumbo13 Katika kategoria Akili ya jumla12 Katika kategoria Maarifa ya jumla12 Katika kategoria Mahususi kwa domeni6 Katika kategoria Ufuataji wa maagizo1
| Nafasi | Modeli | Kampuni | Idadi ya Hitilafu ya API | Alama | Majaribio sahihi | Muda wa majibu (wastani) |
|---|---|---|---|---|---|---|
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 6.6 | 8/18 | 9.69s |
| #92 | Laguna M.1 medium | Poolside | 4 | 6.4 | 9/19 | 14.7s |
| #93 | Qwen3.6 Plus Preview medium | Qwen | 8 | 6.3 | 9/19 | 15.2s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 6.7 | 10/21 | 41.2s |
| #85 | Gemma 4 31B none | 2 | 6.5 | 10/21 | 4.05s | |
| #89 | Hy3 preview low | Tencent | 7 | 6.4 | 10/21 | 24.6s |
| #83 | Step 3.5 Flash none | Stepfun | 4 | 6.6 | 6/12 | 39.0s |
| #66 | Qwen3.5-35B-A3B medium | Qwen | 1 | 7.1 | 11/21 | 72.6s |
| #72 | DeepSeek V3.2 medium | DeepSeek | 2 | 7.0 | 11/21 | 68.7s |
| #75 | Ring-2.6-1T medium | Inclusionai | 2 | 6.9 | 11/21 | 61.3s |
| #82 | Hy3 preview high | Tencent | 7 | 6.6 | 11/21 | 56.6s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 7.5 | 12/21 | 26.1s |
| #49 | Qwen3.5-Flash medium | Qwen | 1 | 7.4 | 12/21 | 63.3s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 7.4 | 12/21 | 22.2s |
| #55 | GLM 5.1 medium | Z.ai | 1 | 7.3 | 12/21 | 33.7s |