AI BENCHY
Your ad here

Falhas por categoria AI BENCHY

Seguimento de instruções: Resposta incorreta

Seguimento de instruções
Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Seguimento de instruções, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↑.

Modelos exibidos

15

Falhas totais

44

Modelo mais afetado

Gemma 4 26B A4B 1
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação da categoria Testes corretos Tempo de resposta (médio)
#60 Gemma 4 26B A4B none Google 1 4.4 0/2 1.08s
#67 Qwen3.5-27B none Qwen 2 4.8 0/2 815ms
#70 Qwen3.5-122B-A10B none Qwen 2 4.5 0/2 585ms
#78 Trinity Large Preview none Arcee AI 1 4.1 0/2 1.09s
#79 Grok 4.20 Beta none X AI 1 4.8 0/2 687ms
#80 MiniMax M2.7 medium Minimax 1 3.7 0/2 12.6s
#82 Grok 4.20 none X AI 1 4.8 0/2 455ms
#87 Qwen3 Coder Next none Qwen 2 4.8 0/2 7.71s
#88 Nemotron 3 Super none NVIDIA 1 4.9 0/2 1.50s
#89 GPT-4o-mini none OpenAI 1 4.8 0/2 1.27s
#92 Qwen3 Coder Next medium Qwen 1 4.8 0/2 7.34s
#95 Grok 4.1 Fast none X AI 2 3.0 0/2 923ms
#96 GPT-5.4 Nano none OpenAI 1 5.0 0/2 787ms
#98 LFM2-24B-A2B none Liquid 2 4.8 0/2 1.09s
#21 Gemini 3 Flash Preview none Google 1 6.4 1/2 1.58s

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado