AI BENCHY
Advertise here

Categoria AI BENCHY

Ranking de Programação

Veja quais modelos de IA vão melhor em Programação, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↓.

Modelos exibidos

15

Média de Pontuação de Programação

6.1

Posição Modelo Empresa Pontuação de Programação Pontuação Testes corretos Tempo de resposta (médio)
#110 MiMo-V2-Pro none Xiaomi 6.8 5.7 1/2 2.65s
#111 Owl Alpha none Openrouter 7.0 5.7 1/2 39.7s
#114 GPT-5.4 none OpenAI 6.8 5.6 1/2 1.99s
#116 Kimi K2.6 none Moonshot AI 6.8 5.6 1/2 122.8s
#117 Qwen3.6 Flash none Qwen 6.6 5.5 1/2 2.34s
#123 MiniMax M2.7 medium Minimax 6.7 5.4 1/2 54.7s
#128 Kimi K2.5 none Moonshot AI 6.8 5.3 1/2 36.0s
#136 MiMo-V2.5 none Xiaomi 6.8 5.0 1/2 3.74s
#137 GPT-5.4 Mini none OpenAI 6.8 4.9 1/2 1.01s
#138 Qwen3.6 35B A3B none Qwen 6.8 4.9 1/2 12.3s
#17 Qwen3.6 Plus Preview medium Qwen 0.0 8.2 0/0 0ms
#20 Gemini 3 PRO Preview medium Google 3.0 8.1 0/2 0ms
#24 Gemma 4 31B medium Google 3.8 8.0 0/2 110.9s
#31 Gemma 4 26B A4B medium Google 2.9 7.8 0/2 258.4s
#34 Step 3.5 Flash none Stepfun 3.0 7.8 0/1 0ms

Melhores modelos por Pontuação de Programação

Pontuação de Programação vs custo total

Melhores modelos por Tempo de resposta (médio)