Google: Gemini 3.1 Flash Lite vs OpenAI: gpt-oss-120b
Resumo
Comparação benchmark Gemini 3.1 Flash Lite vs gpt-oss-120b: Gemini 3.1 Flash Lite lidera na pontuação média com 6.4 vs 5.4. gpt-oss-120b tem menor custo de benchmark com $0.010 vs $0.013. Gemini 3.1 Flash Lite é mais rápido com 1.33s vs 21.61s, com taxas de acerto de 54.0% vs 38.6%.
Modelo recomendado: Gemini 3.1 Flash Lite - Tem a melhor pontuação aqui (6.4) e responde cerca de 16.3x mais rápido que gpt-oss-120b.
Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-10
6.4Pontuação média em todos os testes de benchmark.…
5.4Pontuação média em todos os testes de benchmark.…
Posição
#88
#127
Confiabilidade
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
Consistência
8.8A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
9.1A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
Testes corretos
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 8Não seguiu as instruções: 3Tempo de resposta (médio)1.33sTempo de resposta (máx.)4.49sTempo de resposta (total)27.91sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 8Erro de API: 3Não seguiu as instruções: 2Tempo de resposta (médio)21.61sTempo de resposta (máx.)113.71sTempo de resposta (total)345.79sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Taxa de acerto por tentativa
54.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
38.6%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
Testes instáveis
3Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Execuções totais
63Execuções totais…
57Execuções totais…
Custo por resultado
0.130Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
0.168Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
Custo total
$0.013Custo total (preço atual)…
$0.010Custo total (preço atual)…
Preço de entrada
$0.250 / 1MPreço de entrada…
$0.039 / 1MPreço de entrada…
Preço de saída
$1.500 / 1MPreço de saída…
$0.180 / 1MPreço de saída…
Total de tokens de entrada
36,973Total de tokens de entrada…
9,081Total de tokens de entrada…
Tokens de saída
2,487Tokens de saída…
51,664Tokens de saída…
Tokens de raciocínio
0Tokens de raciocínio…
0Tokens de raciocínio…
Tempo de resposta (médio)
1.33sTempo de resposta (médio)…
21.61sTempo de resposta (médio)…
Tempo de resposta (máx.)
4.49sTempo de resposta (máx.)…
113.71sTempo de resposta (máx.)…
Tempo de resposta (total)
27.91sTempo de resposta (total)…
345.79sTempo de resposta (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#88 Gemini 3.1 Flash Lite
minimal
Cost
$0.001
Time
3.7s
Tokens
635 tok
#127 gpt-oss-120b
none
No showcase result has been generated for this model yet.
8.3Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
75.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.10sTempo de resposta (máx.)1.65sTempo de resposta (total)4.42sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.5Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
50.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)32.84sTempo de resposta (máx.)113.71sTempo de resposta (total)131.35sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
5.5Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
33.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)831msTempo de resposta (máx.)1.31sTempo de resposta (total)2.49sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
4.3Pontuação média em todos os testes de benchmark.…
1.1A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)9.57sTempo de resposta (máx.)9.57sTempo de resposta (total)9.57sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.53sTempo de resposta (máx.)2.53sTempo de resposta (total)2.53sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0msUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.04sTempo de resposta (máx.)1.32sTempo de resposta (total)2.07sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.5Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
50.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)7.12sTempo de resposta (máx.)7.12sTempo de resposta (total)7.12sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
2.9Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
11.1%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.02sTempo de resposta (máx.)1.16sTempo de resposta (total)3.06sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)34.98sTempo de resposta (máx.)68.97sTempo de resposta (total)104.94sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
4.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)791msTempo de resposta (máx.)791msTempo de resposta (total)791msUm teste é totalmente aprovado apenas quando todas as execuções passam.…
4.8Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)10.79sTempo de resposta (máx.)10.79sTempo de resposta (total)10.79sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)932msTempo de resposta (máx.)1.00sTempo de resposta (total)1.86sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
9.8Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.06sTempo de resposta (máx.)5.85sTempo de resposta (total)10.12sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.0Pontuação média em todos os testes de benchmark.…
4.6A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Tempo de resposta (médio)2.15sTempo de resposta (máx.)4.49sTempo de resposta (total)6.45sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.0Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
55.6%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)8.21sTempo de resposta (máx.)11.82sTempo de resposta (total)24.62sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.51sTempo de resposta (máx.)3.51sTempo de resposta (total)3.51sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0msUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)724msTempo de resposta (máx.)724msTempo de resposta (total)724msUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)47.29sTempo de resposta (máx.)47.29sTempo de resposta (total)47.29sUm teste é totalmente aprovado apenas quando todas as execuções passam.…