Kushindwa kwa kategoria za AI BENCHY
Mchanganyiko
Mwito wa zana si sahihi
Mchanganyiko
Mwito wa zana si sahihi
Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Mwito wa zana si sahihi katika Mchanganyiko, ili uone udhaifu haraka. Panga kwa: Majaribio sahihi ↓.
Sababu zinazohusiana za kushindwa
Kategoria zinazohusiana
| Nafasi | Modeli | Kampuni | Idadi ya Mwito wa zana si sahihi | Alama ya kategoria | Majaribio sahihi | Muda wa majibu (wastani) |
|---|---|---|---|---|---|---|
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 8.0 | 0/1 | 115.9s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 10.0 | 0/1 | 60.4s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 3.22s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 10.0 | 0/1 | 65.6s |