Leaderboard do AI Benchy

Name: Resultados de benchmark de modelos AI BENCHY
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-24 Modelos avaliados: 222

222/222

Posição	Modelo	Pontuação	Empresa	Custo total	Tempo de resposta (médio)
#1🥇 #1	Gemini 3.6 Flashmedium	9.9	Google	$0.831	10.11s
Ver cartão do modelo Total de testes 22 Testes errados 1 Confiabilidade 10.0 Taxa de acerto por tentativa 98.5% Testes instáveis 1 Tokens de entrada 66,293 Tokens de saída 2,000 Tokens de raciocínio 95,464 Tempo de resposta (médio) 10.11s Tempo de resposta (total) 222.33s Tempo de resposta (máx.) 68.03s Resposta incorreta: 1 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 8.2 Inteligência geral : 10.0 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 10.0
#2🥈 #2	Gemini 3.6 Flashhigh	9.7	Google	$1.785	14.88s
Ver cartão do modelo Total de testes 22 Testes errados 1 Confiabilidade 10.0 Taxa de acerto por tentativa 98.5% Testes instáveis 1 Tokens de entrada 87,819 Tokens de saída 5,750 Tokens de raciocínio 214,596 Tempo de resposta (médio) 14.88s Tempo de resposta (total) 327.37s Tempo de resposta (máx.) 88.00s Resposta incorreta: 1 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 10.0 Inteligência geral : 10.0 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 4.7
#3🥉 #3	Gemini 3 Flash Previewmedium	9.6	Google	$0.742	19.20s
Ver cartão do modelo Total de testes 22 Testes errados 1 Confiabilidade 10.0 Taxa de acerto por tentativa 98.5% Testes instáveis 1 Tokens de entrada 87,861 Tokens de saída 5,486 Tokens de raciocínio 227,164 Tempo de resposta (médio) 19.20s Tempo de resposta (total) 422.42s Tempo de resposta (máx.) 117.26s Resposta incorreta: 1 Truques anti-IA : 10.0 Programação : 8.6 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 10.0 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 10.0
#4#4	Gemini 3.5 Flashhigh	9.5	Google	$1.976	15.07s
Ver cartão do modelo Total de testes 22 Testes errados 2 Confiabilidade 10.0 Taxa de acerto por tentativa 93.9% Testes instáveis 2 Tokens de entrada 107,137 Tokens de saída 8,777 Tokens de raciocínio 192,900 Tempo de resposta (médio) 15.07s Tempo de resposta (total) 331.48s Tempo de resposta (máx.) 145.92s Chamada de ferramenta inválida: 1 Resposta incorreta: 1 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 8.2 Análise e extração de dados : 10.0 Específico do domínio : 7.6 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 9.8 Conhecimentos gerais : 10.0
#5#5	GPT-5.6 Sollow	9.5	OpenAI	$0.971	8.79s
Ver cartão do modelo Total de testes 22 Testes errados 4 Confiabilidade 10.0 Taxa de acerto por tentativa 86.4% Testes instáveis 2 Tokens de entrada 78,571 Tokens de saída 4,476 Tokens de raciocínio 14,770 Tempo de resposta (médio) 8.79s Tempo de resposta (total) 193.33s Tempo de resposta (máx.) 53.91s Resposta incorreta: 4 Truques anti-IA : 8.3 Programação : 10.0 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 8.2 Chamada de ferramentas : 10.0 Conhecimentos gerais : 10.0
#6#6	Gemini 3.6 Flashlow	9.4	Google	$0.517	4.42s
Ver cartão do modelo Total de testes 22 Testes errados 1 Confiabilidade 10.0 Taxa de acerto por tentativa 97.0% Testes instáveis 1 Tokens de entrada 82,715 Tokens de saída 5,729 Tokens de raciocínio 46,633 Tempo de resposta (médio) 4.42s Tempo de resposta (total) 97.13s Tempo de resposta (máx.) 28.92s Resposta incorreta: 1 Truques anti-IA : 10.0 Programação : 7.8 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 10.0 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 10.0
#7#7	GPT-5.6 Solmedium	9.4	OpenAI	$1.316	11.35s
Ver cartão do modelo Total de testes 22 Testes errados 4 Confiabilidade 10.0 Taxa de acerto por tentativa 90.9% Testes instáveis 3 Tokens de entrada 78,997 Tokens de saída 4,696 Tokens de raciocínio 26,002 Tempo de resposta (médio) 11.35s Tempo de resposta (total) 249.73s Tempo de resposta (máx.) 79.40s Resposta incorreta: 4 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.9 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 8.2 Chamada de ferramentas : 10.0 Conhecimentos gerais : 4.7
#8#8	GPT-5.6 Solhigh	9.4	OpenAI	$1.234	11.73s
Ver cartão do modelo Total de testes 22 Testes errados 4 Confiabilidade 10.0 Taxa de acerto por tentativa 89.4% Testes instáveis 3 Tokens de entrada 79,249 Tokens de saída 4,855 Tokens de raciocínio 23,044 Tempo de resposta (médio) 11.73s Tempo de resposta (total) 257.99s Tempo de resposta (máx.) 54.79s Resposta incorreta: 4 Truques anti-IA : 8.7 Programação : 10.0 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 4.7
#9#9	GPT-5.5low	9.3	OpenAI	$1.253	10.13s
Ver cartão do modelo Total de testes 22 Testes errados 3 Confiabilidade 10.0 Taxa de acerto por tentativa 86.4% Testes instáveis 0 Tokens de entrada 80,058 Tokens de saída 5,378 Tokens de raciocínio 23,040 Tempo de resposta (médio) 10.13s Tempo de resposta (total) 222.82s Tempo de resposta (máx.) 56.19s Resposta incorreta: 3 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 10.0 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#10#10	Gemini 3.1 Pro Previewmedium	9.2	Google	$1.361	21.47s
Ver cartão do modelo Total de testes 22 Testes errados 2 Confiabilidade 10.0 Taxa de acerto por tentativa 90.9% Testes instáveis 0 Tokens de entrada 92,287 Tokens de saída 5,232 Tokens de raciocínio 92,726 Tempo de resposta (médio) 21.47s Tempo de resposta (total) 322.08s Tempo de resposta (máx.) 88.68s Resposta incorreta: 2 Truques anti-IA : 10.0 Programação : 7.9 Combinado : 9.8 Análise e extração de dados : 10.0 Específico do domínio : 7.7 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 10.0
#11#11	Qwen3.7 Maxmedium	9.2	Qwen	$1.116 ↓	40.57s
Ver cartão do modelo Total de testes 22 Testes errados 4 Confiabilidade 10.0 Taxa de acerto por tentativa 87.9% Testes instáveis 2 Tokens de entrada 106,020 Tokens de saída 5,748 Tokens de raciocínio 211,004 Tempo de resposta (médio) 40.57s Tempo de resposta (total) 892.57s Tempo de resposta (máx.) 556.06s Resposta incorreta: 3 Chamada de ferramenta inválida: 1 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 8.7 Análise e extração de dados : 10.0 Específico do domínio : 5.9 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#12#12	Gemini 3.5 Flashmedium	9.1	Google	$0.642	8.20s
Ver cartão do modelo Total de testes 22 Testes errados 3 Confiabilidade 10.0 Taxa de acerto por tentativa 87.9% Testes instáveis 1 Tokens de entrada 69,747 Tokens de saída 2,166 Tokens de raciocínio 57,436 Tempo de resposta (médio) 8.20s Tempo de resposta (total) 180.47s Tempo de resposta (máx.) 76.68s Resposta incorreta: 2 Não seguiu as instruções: 1 Truques anti-IA : 10.0 Programação : 7.9 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 7.7 Inteligência geral : 10.0 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 10.0
#13#13	GPT-5.5medium	9.0	OpenAI	$4.137	38.42s
Ver cartão do modelo Total de testes 22 Testes errados 4 Confiabilidade 10.0 Taxa de acerto por tentativa 87.9% Testes instáveis 3 Tokens de entrada 80,659 Tokens de saída 5,617 Tokens de raciocínio 118,819 Tempo de resposta (médio) 38.42s Tempo de resposta (total) 845.35s Tempo de resposta (máx.) 332.10s Resposta incorreta: 4 Truques anti-IA : 10.0 Programação : 8.8 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 2.8
#14#14	Gemini 3.5 Flashlow	8.9	Google	$0.433	5.55s
Ver cartão do modelo Total de testes 22 Testes errados 3 Confiabilidade 10.0 Taxa de acerto por tentativa 87.9% Testes instáveis 1 Tokens de entrada 87,817 Tokens de saída 2,239 Tokens de raciocínio 31,182 Tempo de resposta (médio) 5.55s Tempo de resposta (total) 122.19s Tempo de resposta (máx.) 53.55s Resposta incorreta: 2 Chamada de ferramenta inválida: 1 Truques anti-IA : 10.0 Programação : 7.8 Combinado : 8.2 Análise e extração de dados : 10.0 Específico do domínio : 7.7 Inteligência geral : 10.0 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 10.0
#15#15	Grok 4.5high	8.9	X AI	$1.707	76.50s
Ver cartão do modelo Total de testes 22 Testes errados 5 Confiabilidade 10.0 Taxa de acerto por tentativa 83.3% Testes instáveis 2 Tokens de entrada 151,562 Tokens de saída 5,655 Tokens de raciocínio 247,540 Tempo de resposta (médio) 76.50s Tempo de resposta (total) 1683.07s Tempo de resposta (máx.) 676.83s Sem resposta: 2 Resposta incorreta: 2 Não seguiu as instruções: 1 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 3.6 Inteligência geral : 4.7 Seguimento de instruções : 9.8 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#16#16	GPT-5.3-Codexmedium	8.9	OpenAI	$0.920	16.96s
Ver cartão do modelo Total de testes 22 Testes errados 6 Confiabilidade 10.0 Taxa de acerto por tentativa 83.3% Testes instáveis 4 Tokens de entrada 81,268 Tokens de saída 6,251 Tokens de raciocínio 49,274 Tempo de resposta (médio) 16.96s Tempo de resposta (total) 373.19s Tempo de resposta (máx.) 100.93s Resposta incorreta: 4 Não seguiu as instruções: 2 Truques anti-IA : 8.7 Programação : 10.0 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.9 Inteligência geral : 4.6 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 9.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 2.8
#17#17	Claude Opus 4.8medium	8.8	Anthropic	$1.931	12.49s
Ver cartão do modelo Total de testes 22 Testes errados 4 Confiabilidade 10.0 Taxa de acerto por tentativa 84.9% Testes instáveis 1 Tokens de entrada 138,451 Tokens de saída 40,766 Tokens de raciocínio 9,075 Tempo de resposta (médio) 12.49s Tempo de resposta (total) 274.72s Tempo de resposta (máx.) 70.54s Resposta incorreta: 3 Sem resposta: 1 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 9.9 Análise e extração de dados : 7.1 Específico do domínio : 5.3 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#18#18	Claude Opus 4.7medium	8.7	Anthropic	$1.477	7.61s
Ver cartão do modelo Total de testes 22 Testes errados 4 Confiabilidade 10.0 Taxa de acerto por tentativa 83.3% Testes instáveis 1 Tokens de entrada 145,252 Tokens de saída 24,948 Tokens de raciocínio 5,042 Tempo de resposta (médio) 7.61s Tempo de resposta (total) 159.91s Tempo de resposta (máx.) 65.40s Resposta incorreta: 3 Tempo esgotado: 1 Truques anti-IA : 8.3 Programação : 7.6 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 7.7 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#19#19	Muse Spark 1.1medium	8.6	Meta	$1.357	24.97s
Ver cartão do modelo Total de testes 22 Testes errados 7 Confiabilidade 10.0 Taxa de acerto por tentativa 72.7% Testes instáveis 2 Tokens de entrada 142,567 Tokens de saída 7,905 Tokens de raciocínio 269,225 Tempo de resposta (médio) 24.97s Tempo de resposta (total) 549.31s Tempo de resposta (máx.) 165.38s Resposta incorreta: 4 Não seguiu as instruções: 2 Chamada de ferramenta inválida: 1 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 8.3 Análise e extração de dados : 10.0 Específico do domínio : 3.5 Inteligência geral : 10.0 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 7.9 Chamada de ferramentas : 9.8 Conhecimentos gerais : 3.0
#20#20	Claude Fable 5medium	8.6	Anthropic	$3.478	17.20s
Ver cartão do modelo Total de testes 22 Testes errados 5 Confiabilidade 10.0 Taxa de acerto por tentativa 78.8% Testes instáveis 1 Tokens de entrada 89,643 Tokens de saída 41,360 Tokens de raciocínio 10,269 Tempo de resposta (médio) 17.20s Tempo de resposta (total) 378.41s Tempo de resposta (máx.) 80.80s Sem resposta: 2 Resposta incorreta: 2 Chamada de ferramenta inválida: 1 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 6.5 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#21#21	GPT-5.4medium	8.5	OpenAI	$1.533	23.10s
Ver cartão do modelo Total de testes 22 Testes errados 7 Confiabilidade 10.0 Taxa de acerto por tentativa 77.3% Testes instáveis 4 Tokens de entrada 81,127 Tokens de saída 6,155 Tokens de raciocínio 82,515 Tempo de resposta (médio) 23.10s Tempo de resposta (total) 508.26s Tempo de resposta (máx.) 100.41s Resposta incorreta: 5 Não seguiu as instruções: 2 Truques anti-IA : 8.3 Programação : 8.8 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.7 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 8.2 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#23#23	Grok 4.5low	8.4	X AI	$0.935	15.56s
Ver cartão do modelo Total de testes 22 Testes errados 6 Confiabilidade 10.0 Taxa de acerto por tentativa 75.8% Testes instáveis 1 Tokens de entrada 125,596 Tokens de saída 7,505 Tokens de raciocínio 106,446 Tempo de resposta (médio) 15.56s Tempo de resposta (total) 342.32s Tempo de resposta (máx.) 205.28s Resposta incorreta: 6 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 6.5 Análise e extração de dados : 10.0 Específico do domínio : 3.0 Inteligência geral : 6.1 Seguimento de instruções : 9.8 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#24#24	GPT-5.2medium	8.4	OpenAI	$0.951	22.62s
Ver cartão do modelo Total de testes 22 Testes errados 8 Confiabilidade 10.0 Taxa de acerto por tentativa 72.7% Testes instáveis 4 Tokens de entrada 105,004 Tokens de saída 9,914 Tokens de raciocínio 44,868 Tempo de resposta (médio) 22.62s Tempo de resposta (total) 339.28s Tempo de resposta (máx.) 102.93s Não seguiu as instruções: 3 Resposta incorreta: 3 Sem resposta: 1 Tempo esgotado: 1 Truques anti-IA : 6.5 Programação : 10.0 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.9 Inteligência geral : 3.7 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 7.5 Chamada de ferramentas : 4.7 Conhecimentos gerais : 3.0
#25#25	Grok 4.5medium	8.3	X AI	$1.928	61.71s
Ver cartão do modelo Total de testes 22 Testes errados 6 Confiabilidade 10.0 Taxa de acerto por tentativa 78.8% Testes instáveis 3 Tokens de entrada 122,146 Tokens de saída 5,514 Tokens de raciocínio 275,053 Tempo de resposta (médio) 61.71s Tempo de resposta (total) 1357.56s Tempo de resposta (máx.) 436.38s Resposta incorreta: 6 Truques anti-IA : 10.0 Programação : 7.6 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 2.9 Inteligência geral : 6.5 Seguimento de instruções : 9.8 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#26#26	Claude Sonnet 5medium	8.3	Anthropic	$0.922	12.52s
Ver cartão do modelo Total de testes 22 Testes errados 6 Confiabilidade 10.0 Taxa de acerto por tentativa 80.3% Testes instáveis 3 Tokens de entrada 145,956 Tokens de saída 52,333 Tokens de raciocínio 10,874 Tempo de resposta (médio) 12.52s Tempo de resposta (total) 275.42s Tempo de resposta (máx.) 66.71s Resposta incorreta: 4 Não seguiu as instruções: 1 Chamada de ferramenta inválida: 1 Truques anti-IA : 10.0 Programação : 9.0 Combinado : 7.3 Análise e extração de dados : 10.0 Específico do domínio : 7.7 Inteligência geral : 4.8 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#27#27	Muse Spark 1.1low	8.3	Meta	$0.647	11.45s
Ver cartão do modelo Total de testes 22 Testes errados 9 Confiabilidade 10.0 Taxa de acerto por tentativa 69.7% Testes instáveis 4 Tokens de entrada 142,298 Tokens de saída 10,847 Tokens de raciocínio 99,467 Tempo de resposta (médio) 11.45s Tempo de resposta (total) 251.92s Tempo de resposta (máx.) 54.15s Resposta incorreta: 6 Não seguiu as instruções: 2 Chamada de ferramenta inválida: 1 Truques anti-IA : 7.9 Programação : 10.0 Combinado : 6.6 Análise e extração de dados : 10.0 Específico do domínio : 2.9 Inteligência geral : 10.0 Seguimento de instruções : 7.3 Resolução de quebra-cabeças : 8.3 Chamada de ferramentas : 9.8 Conhecimentos gerais : 3.0
#28#28	Gemini 2.5 Flashmedium	8.2	Google	$0.643	21.18s
Ver cartão do modelo Total de testes 22 Testes errados 7 Confiabilidade 10.0 Taxa de acerto por tentativa 71.2% Testes instáveis 1 Tokens de entrada 132,498 Tokens de saída 12,739 Tokens de raciocínio 228,464 Tempo de resposta (médio) 21.18s Tempo de resposta (total) 465.89s Tempo de resposta (máx.) 140.50s Resposta incorreta: 6 Não seguiu as instruções: 1 Truques anti-IA : 8.4 Programação : 7.8 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.9 Inteligência geral : 4.8 Seguimento de instruções : 9.8 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#29#29	GPT-5 Minimedium	8.1	OpenAI	$0.237	27.63s
Ver cartão do modelo Total de testes 22 Testes errados 10 Confiabilidade 10.0 Taxa de acerto por tentativa 63.6% Testes instáveis 3 Tokens de entrada 98,374 Tokens de saída 14,434 Tokens de raciocínio 91,498 Tempo de resposta (médio) 27.63s Tempo de resposta (total) 607.92s Tempo de resposta (máx.) 111.48s Resposta incorreta: 5 Não seguiu as instruções: 3 Sem resposta: 1 Tempo esgotado: 1 Truques anti-IA : 7.1 Programação : 10.0 Combinado : 7.3 Análise e extração de dados : 10.0 Específico do domínio : 3.6 Inteligência geral : 4.5 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 5.6 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#30#30	Muse Spark 1.1high	8.1	Meta	$1.694	31.49s
Ver cartão do modelo Total de testes 22 Testes errados 10 Confiabilidade 10.0 Taxa de acerto por tentativa 69.7% Testes instáveis 6 Tokens de entrada 129,423 Tokens de saída 8,077 Tokens de raciocínio 352,421 Tempo de resposta (médio) 31.49s Tempo de resposta (total) 661.28s Tempo de resposta (máx.) 196.03s Resposta incorreta: 4 Não seguiu as instruções: 2 Chamada de ferramenta inválida: 2 Erro de API: 1 Sem resposta: 1 Truques anti-IA : 7.5 Programação : 10.0 Combinado : 5.9 Análise e extração de dados : 10.0 Específico do domínio : 3.5 Inteligência geral : 10.0 Seguimento de instruções : 6.4 Resolução de quebra-cabeças : 7.8 Chamada de ferramentas : 9.6 Conhecimentos gerais : 3.0
#31#31	Gemini 3.5 Flash-Litehigh	8.1	Google	$0.584	9.48s
Ver cartão do modelo Total de testes 22 Testes errados 8 Confiabilidade 10.0 Taxa de acerto por tentativa 81.8% Testes instáveis 7 Tokens de entrada 105,138 Tokens de saída 8,315 Tokens de raciocínio 212,507 Tempo de resposta (médio) 9.48s Tempo de resposta (total) 208.52s Tempo de resposta (máx.) 43.93s Resposta incorreta: 6 Não seguiu as instruções: 1 Sem resposta: 1 Truques anti-IA : 10.0 Programação : 8.6 Combinado : 7.3 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 5.4 Seguimento de instruções : 8.5 Resolução de quebra-cabeças : 8.2 Chamada de ferramentas : 10.0 Conhecimentos gerais : 2.8

Comparação rápida

Gemini 3.6 FlashmediumvsGemini 3.6 Flashhigh Gemini 3.6 FlashhighvsGemini 3 Flash Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGemini 3.6 Flashlow Gemini 3.6 FlashlowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low GPT-5.5lowvsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGemini 3.5 Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5medium

Leaderboard do AI Benchy

Filtrar modelos

Comparação rápida