AI BENCHY Categoriefouten
Gecombineerd: Ongeldige toolaanroep
Gecombineerd
Ongeldige toolaanroep
Zie welke AI-modellen op Gecombineerd het meest kans hebben op Ongeldige toolaanroep, zodat je zwakke punten sneller ziet.
Foutredenen
Categorieรซn
| Rang | Model | Bedrijf | Ongeldige toolaanroep-aantal | Categoriescore | Correcte tests | Responstijd (gem.) |
|---|---|---|---|---|---|---|
| #32 | Gemini 3.5 Flash minimal | 1 | 3.0 | 0/1 | 3.56s | |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 6.9 | 0/1 | 15.1s |
| #78 | Qwen3.6 27B medium | Qwen | 1 | 7.0 | 0/1 | 83.1s |
| #106 | Grok 4.20 Beta none | X AI | 1 | 3.0 | 0/1 | 6.48s |
| #112 | GLM 5.1 none | Z.ai | 1 | 2.8 | 0/1 | 32.6s |
| #118 | Qwen3.6 27B none | Qwen | 1 | 3.0 | 0/1 | 9.95s |
| #119 | Cobuddy medium | Baidu | 1 | 3.0 | 0/1 | 47.4s |
| #122 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 3.22s |
| #127 | Grok 4.20 none | X AI | 1 | 3.0 | 0/1 | 6.04s |
| #128 | Qwen3.6 Flash none | Qwen | 1 | 3.0 | 0/1 | 4.22s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 4.5 | 0/1 | 60.4s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 41.0s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 6.5 | 0/1 | 115.9s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | 0/1 | 35.3s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 1 | 4.5 | 0/1 | 112.0s |