Kushindwa kwa kategoria za AI BENCHY
Mwito wa zana: Hitilafu ya API
Mwito wa zana
Hitilafu ya API
Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hitilafu ya API katika Mwito wa zana, ili uone udhaifu haraka. Panga kwa: Muda wa majibu (wastani) ↑.
Sababu za kushindwa
| Nafasi | Modeli | Kampuni | Idadi ya Hitilafu ya API | Alama ya kategoria | Majaribio sahihi | Muda wa majibu (wastani) |
|---|---|---|---|---|---|---|
| #14 | Gemma 4 31B medium | 1 | 3.0 | 0/1 | 0ms | |
| #33 | GLM 5.1 medium | Z.ai | 1 | 3.0 | 0/1 | 0ms |
| #48 | Gemma 4 31B none | 1 | 3.0 | 0/1 | 0ms | |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 3.0 | 0/1 | 0ms |
| #84 | gpt-oss-120b none | OpenAI | 1 | 3.0 | 0/1 | 0ms |
| #98 | LFM2-24B-A2B none | Liquid | 1 | 3.0 | 0/1 | 0ms |