Falhas por categoria AI BENCHY
Específico do domínio: Resposta incorreta
Específico do domínio
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↓.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #2 | Gemini 3.5 Flash high | 1 | 7.6 | 2/3 | 14.1s | |
| #3 | Gemini 3.5 Flash low | 1 | 7.7 | 2/3 | 3.39s | |
| #4 | Gemini 3.1 Pro Preview medium | 1 | 7.7 | 2/3 | 32.7s | |
| #7 | Gemini 3.5 Flash medium | 1 | 7.7 | 2/3 | 5.24s | |
| #8 | Claude Opus 4.7 none | Anthropic | 1 | 7.7 | 2/3 | 1.19s |
| #20 | Gemini 3.5 Flash none | 1 | 7.6 | 2/3 | 10.6s | |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 7.7 | 2/3 | 48.3s |
| #27 | Gemma 4 31B medium | 1 | 7.7 | 2/3 | 38.5s | |
| #34 | Qwen3.7 Max none | Qwen | 1 | 7.7 | 2/3 | 975ms |
| #48 | Gemini 3 Flash Preview none | 1 | 7.7 | 2/3 | 963ms | |
| #74 | Qwen3.6 Max Preview none | Qwen | 1 | 7.7 | 2/3 | 1.22s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.7 | 2/3 | 3.54s |
| #85 | Gemma 4 31B none | 1 | 7.7 | 2/3 | 3.22s | |
| #108 | Qwen3.5-Flash none | Qwen | 1 | 7.7 | 2/3 | 905ms |
| #117 | Qwen3.5-35B-A3B none | Qwen | 1 | 7.7 | 2/3 | 485ms |