Kushindwa kwa AI BENCHY
Kushindwa kwa Hitilafu ya API
Ona ni modeli gani za AI hukutana na Hitilafu ya API mara nyingi zaidi ili utambue hatari za utegemevu kabla ya kuchagua. Panga kwa: Muda wa majibu (wastani) ↑.
Modeli zilizoonyeshwa
15
Jumla ya kushindwa
144
Modeli iliyoathirika zaidi
Nemotron 3 Nano Omni 30b A3b Reasoning 6Kategoria
Katika kategoria Uandishi wa msimbo43 Katika kategoria Uchanganuzi na uchimbaji wa data16 Katika kategoria Mwito wa zana15 Katika kategoria Mbinu za kupinga AI13 Katika kategoria Mchanganyiko13 Katika kategoria Utatuzi wa mafumbo13 Katika kategoria Akili ya jumla12 Katika kategoria Maarifa ya jumla12 Katika kategoria Mahususi kwa domeni6 Katika kategoria Ufuataji wa maagizo1
| Nafasi | Modeli | Kampuni | Idadi ya Hitilafu ya API | Alama | Majaribio sahihi | Muda wa majibu (wastani) |
|---|---|---|---|---|---|---|
| #46 | Qwen3.6 35B A3B medium | Qwen | 2 | 7.4 | 13/21 | 18.1s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.2 | 12/21 | 20.1s |
| #126 | gpt-oss-120b none | OpenAI | 3 | 5.4 | 6/19 | 21.6s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 7.4 | 12/21 | 22.2s |
| #89 | Hy3 preview low | Tencent | 7 | 6.4 | 10/21 | 24.6s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 7.5 | 12/21 | 26.1s |
| #100 | Grok Build 0.1 none | X AI | 3 | 6.0 | 7/19 | 28.7s |
| #26 | Qwen3.6 Plus medium | Qwen | 1 | 7.9 | 14/21 | 30.7s |
| #105 | Nemotron 3 Super medium | NVIDIA | 3 | 5.8 | 8/21 | 32.0s |
| #55 | GLM 5.1 medium | Z.ai | 1 | 7.3 | 12/21 | 33.7s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 5.3 | 5/21 | 38.2s |
| #83 | Step 3.5 Flash none | Stepfun | 4 | 6.6 | 6/12 | 39.0s |
| #119 | Cobuddy medium | Baidu | 1 | 5.6 | 7/21 | 39.9s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 6.7 | 10/21 | 41.2s |
| #96 | Ring-2.6-1T none | Inclusionai | 5 | 6.2 | 9/21 | 55.1s |