Kushindwa kwa AI BENCHY
Kushindwa kwa Hitilafu ya API
Ona ni modeli gani za AI hukutana na Hitilafu ya API mara nyingi zaidi ili utambue hatari za utegemevu kabla ya kuchagua. Panga kwa: Muda wa majibu (wastani) ↑.
Modeli zilizoonyeshwa
15
Jumla ya kushindwa
144
Modeli iliyoathirika zaidi
Nemotron 3 Nano Omni 30b A3b Reasoning 6Kategoria
Katika kategoria Uandishi wa msimbo43 Katika kategoria Uchanganuzi na uchimbaji wa data16 Katika kategoria Mwito wa zana15 Katika kategoria Mbinu za kupinga AI13 Katika kategoria Mchanganyiko13 Katika kategoria Utatuzi wa mafumbo13 Katika kategoria Akili ya jumla12 Katika kategoria Maarifa ya jumla12 Katika kategoria Mahususi kwa domeni6 Katika kategoria Ufuataji wa maagizo1
| Nafasi | Modeli | Kampuni | Idadi ya Hitilafu ya API | Alama | Majaribio sahihi | Muda wa majibu (wastani) |
|---|---|---|---|---|---|---|
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 6 | 4.1 | 2/19 | 728ms |
| #160 | LFM2-24B-A2B none | Liquid | 4 | 4.2 | 2/16 | 782ms |
| #146 | Laguna Xs.2 none | Poolside | 4 | 4.8 | 5/19 | 806ms |
| #137 | Elephant Alpha none | Openrouter | 3 | 5.1 | 5/21 | 1.22s |
| #136 | Elephant Alpha medium | Openrouter | 3 | 5.1 | 6/21 | 1.27s |
| #120 | Mimo V2 PRO none | Xiaomi | 1 | 5.6 | 7/21 | 2.27s |
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 6.0 | 8/21 | 2.44s |
| #152 | MiMo-V2-Flash none | Xiaomi | 1 | 4.6 | 4/21 | 2.76s |
| #145 | Laguna M.1 none | Poolside | 4 | 4.8 | 4/19 | 2.89s |
| #151 | Trinity Large Preview none | Arcee AI | 2 | 4.6 | 4/21 | 2.98s |
| #153 | Qwen3.6 35B A3B none | Qwen | 2 | 4.6 | 4/21 | 3.73s |
| #85 | Gemma 4 31B none | 2 | 6.5 | 10/21 | 4.05s | |
| #116 | Hunter Alpha none | OpenRouter | 1 | 5.7 | 6/18 | 4.70s |
| #107 | Laguna Xs.2 medium | Poolside | 4 | 5.8 | 6/19 | 6.73s |
| #159 | Ling-2.6-1T none | Inclusionai | 3 | 4.3 | 3/21 | 7.72s |