Leaderboard do AI Benchy

Name: Resultados de benchmark de modelos AI BENCHY
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-24 Modelos avaliados: 222

222/222

Posição	Modelo	Pontuação	Empresa	Custo total	Tempo de resposta (médio)
#34#34	GPT-5.2 Chatnone	8.0	OpenAI	$0.604	7.65s
Ver cartão do modelo Total de testes 22 Testes errados 8 Confiabilidade 10.0 Taxa de acerto por tentativa 74.2% Testes instáveis 4 Tokens de entrada 101,248 Tokens de saída 30,424 Tokens de raciocínio 0 Tempo de resposta (médio) 7.65s Tempo de resposta (total) 168.39s Tempo de resposta (máx.) 38.52s Resposta incorreta: 6 Não seguiu as instruções: 1 Sem resposta: 1 Truques anti-IA : 8.7 Programação : 8.8 Combinado : 7.3 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.4 Seguimento de instruções : 9.8 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#35#35	GLM 5.2high	8.0	Z.ai	$0.800 ↓	62.65s
Ver cartão do modelo Total de testes 22 Testes errados 8 Confiabilidade 10.0 Taxa de acerto por tentativa 71.2% Testes instáveis 3 Tokens de entrada 83,813 Tokens de saída 69,688 Tokens de raciocínio 225,659 Tempo de resposta (médio) 62.65s Tempo de resposta (total) 1378.34s Tempo de resposta (máx.) 599.43s Tempo esgotado: 3 Resposta incorreta: 3 Não seguiu as instruções: 1 Sem resposta: 1 Truques anti-IA : 10.0 Programação : 6.4 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 3.7 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 6.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#38#38	GPT-5.6 Terrahigh	8.0	OpenAI	$1.055	11.32s
Ver cartão do modelo Total de testes 22 Testes errados 8 Confiabilidade 10.0 Taxa de acerto por tentativa 68.2% Testes instáveis 2 Tokens de entrada 81,047 Tokens de saída 5,055 Tokens de raciocínio 51,736 Tempo de resposta (médio) 11.32s Tempo de resposta (total) 249.14s Tempo de resposta (máx.) 91.49s Resposta incorreta: 7 Chamada de ferramenta inválida: 1 Truques anti-IA : 8.3 Programação : 7.6 Combinado : 8.7 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 5.1 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#39#39	Seed-2.0-Litemedium	7.9	Bytedance Seed	$0.234	48.53s
Ver cartão do modelo Total de testes 22 Testes errados 8 Confiabilidade 10.0 Taxa de acerto por tentativa 74.2% Testes instáveis 4 Tokens de entrada 129,897 Tokens de saída 12,533 Tokens de raciocínio 88,047 Tempo de resposta (médio) 48.53s Tempo de resposta (total) 1067.74s Tempo de resposta (máx.) 254.92s Resposta incorreta: 5 Não seguiu as instruções: 2 Sem resposta: 1 Truques anti-IA : 8.3 Programação : 8.0 Combinado : 6.4 Análise e extração de dados : 10.0 Específico do domínio : 5.9 Inteligência geral : 6.7 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 9.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#40#40	Qwen3.7 Plusmedium	7.9	Qwen	$0.267 ↓	51.51s
Ver cartão do modelo Total de testes 22 Testes errados 7 Confiabilidade 10.0 Taxa de acerto por tentativa 75.8% Testes instáveis 3 Tokens de entrada 115,233 Tokens de saída 6,162 Tokens de raciocínio 173,267 Tempo de resposta (médio) 51.51s Tempo de resposta (total) 1133.15s Tempo de resposta (máx.) 315.30s Resposta incorreta: 5 Chamada de ferramenta inválida: 1 Tempo esgotado: 1 Truques anti-IA : 10.0 Programação : 6.1 Combinado : 8.2 Análise e extração de dados : 10.0 Específico do domínio : 3.6 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#41#41	Qwen3.6 Plusmedium	7.8	Qwen	$0.405 ↑	43.12s
Ver cartão do modelo Total de testes 22 Testes errados 7 Confiabilidade 10.0 Taxa de acerto por tentativa 71.2% Testes instáveis 2 Tokens de entrada 97,689 Tokens de saída 6,412 Tokens de raciocínio 184,825 Tempo de resposta (médio) 43.12s Tempo de resposta (total) 905.53s Tempo de resposta (máx.) 291.55s Resposta incorreta: 5 Erro de API: 1 Não seguiu as instruções: 1 Truques anti-IA : 10.0 Programação : 6.1 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 2.9 Inteligência geral : 5.1 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#43#43	GPT-5.6 Terramedium	7.8	OpenAI	$0.676	7.11s
Ver cartão do modelo Total de testes 22 Testes errados 8 Confiabilidade 10.0 Taxa de acerto por tentativa 69.7% Testes instáveis 2 Tokens de entrada 79,175 Tokens de saída 4,878 Tokens de raciocínio 26,952 Tempo de resposta (médio) 7.11s Tempo de resposta (total) 156.42s Tempo de resposta (máx.) 41.68s Resposta incorreta: 8 Truques anti-IA : 8.3 Programação : 6.1 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 5.5 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 8.4 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#44#44	Claude Sonnet 4.6medium	7.8	Anthropic	$2.057	25.91s
Ver cartão do modelo Total de testes 22 Testes errados 8 Confiabilidade 10.0 Taxa de acerto por tentativa 66.7% Testes instáveis 2 Tokens de entrada 106,292 Tokens de saída 80,748 Tokens de raciocínio 35,117 Tempo de resposta (médio) 25.91s Tempo de resposta (total) 362.78s Tempo de resposta (máx.) 140.96s Resposta incorreta: 4 Formatação extra: 3 Tempo esgotado: 1 Truques anti-IA : 6.5 Programação : 5.7 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 2.9 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#45#45	Claude Opus 4.8low	7.8	Anthropic	$2.077	12.74s
Ver cartão do modelo Total de testes 22 Testes errados 6 Confiabilidade 10.0 Taxa de acerto por tentativa 80.3% Testes instáveis 3 Tokens de entrada 156,525 Tokens de saída 43,141 Tokens de raciocínio 8,617 Tempo de resposta (médio) 12.74s Tempo de resposta (total) 280.29s Tempo de resposta (máx.) 127.97s Resposta incorreta: 4 Formatação extra: 1 Sem resposta: 1 Truques anti-IA : 10.0 Programação : 6.6 Combinado : 9.9 Análise e extração de dados : 6.3 Específico do domínio : 5.3 Inteligência geral : 10.0 Seguimento de instruções : 9.8 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#46#46	GLM 5medium	7.7	Z.ai	$0.307 ↑	33.54s
Ver cartão do modelo Total de testes 21 Testes errados 6 Confiabilidade 10.0 Taxa de acerto por tentativa 78.8% Testes instáveis 4 Tokens de entrada 35,224 Tokens de saída 21,570 Tokens de raciocínio 102,996 Tempo de resposta (médio) 33.54s Tempo de resposta (total) 435.99s Tempo de resposta (máx.) 99.85s Resposta incorreta: 3 Não seguiu as instruções: 1 Sem resposta: 1 Tempo esgotado: 1 Truques anti-IA : 10.0 Programação : 10.0 Combinado : 5.0 Análise e extração de dados : 7.1 Específico do domínio : 3.5 Inteligência geral : 6.1 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#47#47	Claude Opus 4.6medium	7.7	Anthropic	$3.059	34.27s
Ver cartão do modelo Total de testes 22 Testes errados 9 Confiabilidade 10.0 Taxa de acerto por tentativa 63.6% Testes instáveis 3 Tokens de entrada 108,615 Tokens de saída 72,286 Tokens de raciocínio 28,315 Tempo de resposta (médio) 34.27s Tempo de resposta (total) 513.99s Tempo de resposta (máx.) 151.51s Formatação extra: 5 Resposta incorreta: 3 Não seguiu as instruções: 1 Truques anti-IA : 6.4 Programação : 5.7 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 3.0 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#48#48	GPT-5.6 Lunahigh	7.7	OpenAI	$1.017	18.68s
Ver cartão do modelo Total de testes 22 Testes errados 7 Confiabilidade 10.0 Taxa de acerto por tentativa 72.7% Testes instáveis 3 Tokens de entrada 80,918 Tokens de saída 5,088 Tokens de raciocínio 150,910 Tempo de resposta (médio) 18.68s Tempo de resposta (total) 411.05s Tempo de resposta (máx.) 111.09s Resposta incorreta: 7 Truques anti-IA : 8.3 Programação : 5.5 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 7.7 Inteligência geral : 5.0 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 7.6 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#49#49	DeepSeek V4 Flashhigh	7.7	DeepSeek	$0.042 ↓	49.75s
Ver cartão do modelo Total de testes 22 Testes errados 9 Confiabilidade 10.0 Taxa de acerto por tentativa 72.7% Testes instáveis 5 Tokens de entrada 108,392 Tokens de saída 14,478 Tokens de raciocínio 153,687 Tempo de resposta (médio) 49.75s Tempo de resposta (total) 1094.41s Tempo de resposta (máx.) 218.13s Resposta incorreta: 6 Não seguiu as instruções: 2 Chamada de ferramenta inválida: 1 Truques anti-IA : 8.3 Programação : 7.8 Combinado : 6.4 Análise e extração de dados : 10.0 Específico do domínio : 4.1 Inteligência geral : 6.1 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 8.2 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#50#50	DeepSeek V4 Prohigh	7.7	DeepSeek	$0.200	79.14s
Ver cartão do modelo Total de testes 22 Testes errados 12 Confiabilidade 10.0 Taxa de acerto por tentativa 63.6% Testes instáveis 6 Tokens de entrada 90,748 Tokens de saída 10,462 Tokens de raciocínio 178,719 Tempo de resposta (médio) 79.14s Tempo de resposta (total) 1740.97s Tempo de resposta (máx.) 416.76s Resposta incorreta: 6 Não seguiu as instruções: 2 Erro de API: 1 Formatação extra: 1 Sem resposta: 1 Tempo esgotado: 1 Truques anti-IA : 5.7 Programação : 6.3 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 3.6 Inteligência geral : 10.0 Seguimento de instruções : 7.8 Resolução de quebra-cabeças : 6.9 Chamada de ferramentas : 9.8 Conhecimentos gerais : 3.0
#52#52	Grok Build 0.1medium	7.6	X AI	$1.097	52.06s
Ver cartão do modelo Total de testes 22 Testes errados 8 Confiabilidade 10.0 Taxa de acerto por tentativa 63.6% Testes instáveis 0 Tokens de entrada 106,751 Tokens de saída 7,993 Tokens de raciocínio 486,670 Tempo de resposta (médio) 52.06s Tempo de resposta (total) 1145.27s Tempo de resposta (máx.) 252.69s Resposta incorreta: 5 Formatação extra: 3 Truques anti-IA : 8.3 Programação : 5.7 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.4 Seguimento de instruções : 9.8 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#53#53	GLM 5 Turbomedium	7.6	Z.ai	$0.323 ↑	23.00s
Ver cartão do modelo Total de testes 21 Testes errados 7 Confiabilidade 10.0 Taxa de acerto por tentativa 71.2% Testes instáveis 4 Tokens de entrada 35,593 Tokens de saída 12,245 Tokens de raciocínio 62,277 Tempo de resposta (médio) 23.00s Tempo de resposta (total) 482.97s Tempo de resposta (máx.) 194.23s Resposta incorreta: 4 Não seguiu as instruções: 1 Sem resposta: 1 Tempo esgotado: 1 Truques anti-IA : 10.0 Programação : 8.2 Combinado : 5.0 Análise e extração de dados : 10.0 Específico do domínio : 2.9 Inteligência geral : 6.1 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 8.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#54#54	GPT-5.6 Lunamedium	7.6	OpenAI	$0.352	7.28s
Ver cartão do modelo Total de testes 22 Testes errados 8 Confiabilidade 10.0 Taxa de acerto por tentativa 65.2% Testes instáveis 1 Tokens de entrada 89,676 Tokens de saída 5,699 Tokens de raciocínio 37,980 Tempo de resposta (médio) 7.28s Tempo de resposta (total) 160.27s Tempo de resposta (máx.) 29.85s Resposta incorreta: 8 Truques anti-IA : 8.3 Programação : 5.4 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 5.1 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 7.8 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#56#56	Kimi K2.7 Codemedium	7.5	Moonshot AI	$0.740 ↓	84.25s
Ver cartão do modelo Total de testes 22 Testes errados 10 Confiabilidade 10.0 Taxa de acerto por tentativa 65.2% Testes instáveis 4 Tokens de entrada 72,073 Tokens de saída 83,714 Tokens de raciocínio 178,793 Tempo de resposta (médio) 84.25s Tempo de resposta (total) 1769.22s Tempo de resposta (máx.) 365.80s Resposta incorreta: 5 Tempo esgotado: 3 Erro de API: 1 Não seguiu as instruções: 1 Truques anti-IA : 7.3 Programação : 7.8 Combinado : 7.3 Análise e extração de dados : 10.0 Específico do domínio : 5.5 Inteligência geral : 10.0 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 5.9 Chamada de ferramentas : 3.0 Conhecimentos gerais : 3.0
#57#57	GPT-5.4 Nanomedium	7.5	OpenAI	$0.138	13.24s
Ver cartão do modelo Total de testes 22 Testes errados 10 Confiabilidade 10.0 Taxa de acerto por tentativa 65.2% Testes instáveis 4 Tokens de entrada 82,819 Tokens de saída 7,100 Tokens de raciocínio 90,022 Tempo de resposta (médio) 13.24s Tempo de resposta (total) 291.33s Tempo de resposta (máx.) 94.06s Resposta incorreta: 8 Não seguiu as instruções: 2 Truques anti-IA : 8.3 Programação : 6.1 Combinado : 9.9 Análise e extração de dados : 10.0 Específico do domínio : 5.9 Inteligência geral : 4.5 Seguimento de instruções : 9.8 Resolução de quebra-cabeças : 4.1 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#58#58	GPT-5.3 Chatnone	7.5	OpenAI	$0.571	6.88s
Ver cartão do modelo Total de testes 22 Testes errados 9 Confiabilidade 10.0 Taxa de acerto por tentativa 68.2% Testes instáveis 5 Tokens de entrada 78,990 Tokens de saída 30,854 Tokens de raciocínio 0 Tempo de resposta (médio) 6.88s Tempo de resposta (total) 151.31s Tempo de resposta (máx.) 18.33s Resposta incorreta: 7 Não seguiu as instruções: 2 Truques anti-IA : 6.7 Programação : 5.6 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 3.5 Inteligência geral : 4.6 Seguimento de instruções : 9.8 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#59#59	GPT-5.6 Terralow	7.5	OpenAI	$0.519	5.31s
Ver cartão do modelo Total de testes 22 Testes errados 9 Confiabilidade 10.0 Taxa de acerto por tentativa 74.2% Testes instáveis 6 Tokens de entrada 80,295 Tokens de saída 4,714 Tokens de raciocínio 16,469 Tempo de resposta (médio) 5.31s Tempo de resposta (total) 116.82s Tempo de resposta (máx.) 19.85s Resposta incorreta: 8 Chamada de ferramenta inválida: 1 Truques anti-IA : 8.3 Programação : 6.6 Combinado : 8.7 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.8 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 4.7 Conhecimentos gerais : 3.0
#60#60	GPT-5.4 Minimedium	7.5	OpenAI	$0.756	25.94s
Ver cartão do modelo Total de testes 22 Testes errados 10 Confiabilidade 10.0 Taxa de acerto por tentativa 71.2% Testes instáveis 6 Tokens de entrada 97,155 Tokens de saída 6,211 Tokens de raciocínio 145,544 Tempo de resposta (médio) 25.94s Tempo de resposta (total) 570.66s Tempo de resposta (máx.) 138.75s Resposta incorreta: 6 Não seguiu as instruções: 3 Chamada de ferramenta inválida: 1 Truques anti-IA : 8.6 Programação : 8.4 Combinado : 6.9 Análise e extração de dados : 10.0 Específico do domínio : 4.1 Inteligência geral : 4.5 Seguimento de instruções : 9.8 Resolução de quebra-cabeças : 7.8 Chamada de ferramentas : 4.7 Conhecimentos gerais : 3.0
#61#61	Qwen3.5 Plus 2026-02-15medium	7.5	Qwen	$0.437 ↓	89.19s
Ver cartão do modelo Total de testes 22 Testes errados 8 Confiabilidade 10.0 Taxa de acerto por tentativa 71.2% Testes instáveis 4 Tokens de entrada 113,560 Tokens de saída 9,823 Tokens de raciocínio 250,881 Tempo de resposta (médio) 89.19s Tempo de resposta (total) 1337.92s Tempo de resposta (máx.) 304.85s Resposta incorreta: 4 Tempo esgotado: 2 Erro de API: 1 Chamada de ferramenta inválida: 1 Truques anti-IA : 8.2 Programação : 6.6 Combinado : 6.9 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.7 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#62#62	Qwen3.5-27Bmedium	7.4	Qwen	$0.981 ↓	111.94s
Ver cartão do modelo Total de testes 22 Testes errados 9 Confiabilidade 10.0 Taxa de acerto por tentativa 72.7% Testes instáveis 5 Tokens de entrada 111,635 Tokens de saída 15,999 Tokens de raciocínio 598,430 Tempo de resposta (médio) 111.94s Tempo de resposta (total) 2462.67s Tempo de resposta (máx.) 1026.43s Resposta incorreta: 4 Não seguiu as instruções: 2 Formatação extra: 1 Chamada de ferramenta inválida: 1 Tempo esgotado: 1 Truques anti-IA : 8.7 Programação : 6.2 Combinado : 7.3 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 6.1 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 8.2 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#65#65	Gemini 3 Flash Previewlow	7.4	Google	$0.177	6.28s
Ver cartão do modelo Total de testes 22 Testes errados 6 Confiabilidade 10.0 Taxa de acerto por tentativa 75.8% Testes instáveis 2 Tokens de entrada 123,684 Tokens de saída 9,572 Tokens de raciocínio 28,518 Tempo de resposta (médio) 6.28s Tempo de resposta (total) 138.06s Tempo de resposta (máx.) 17.13s Resposta incorreta: 6 Truques anti-IA : 10.0 Programação : 5.8 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 10.0 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 10.0
#66#66	KAT-Coder-Pro V2.5low	7.4	Kwaipilot	$0.387	19.47s
Ver cartão do modelo Total de testes 22 Testes errados 11 Confiabilidade 10.0 Taxa de acerto por tentativa 69.7% Testes instáveis 8 Tokens de entrada 87,673 Tokens de saída 7,166 Tokens de raciocínio 101,474 Tempo de resposta (médio) 19.47s Tempo de resposta (total) 428.31s Tempo de resposta (máx.) 209.15s Resposta incorreta: 10 Erro de API: 1 Truques anti-IA : 6.9 Programação : 7.8 Combinado : 6.4 Análise e extração de dados : 10.0 Específico do domínio : 4.1 Inteligência geral : 4.1 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 6.4 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#67#67	Claude Sonnet 4.6none	7.3	Anthropic	$0.661	8.12s
Ver cartão do modelo Total de testes 22 Testes errados 10 Confiabilidade 10.0 Taxa de acerto por tentativa 57.6% Testes instáveis 1 Tokens de entrada 123,264 Tokens de saída 19,362 Tokens de raciocínio 0 Tempo de resposta (médio) 8.12s Tempo de resposta (total) 121.78s Tempo de resposta (máx.) 51.18s Resposta incorreta: 5 Formatação extra: 4 Não seguiu as instruções: 1 Truques anti-IA : 4.8 Programação : 5.5 Combinado : 9.8 Análise e extração de dados : 10.0 Específico do domínio : 7.7 Inteligência geral : 6.1 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#68#68	Gemini 3.1 Flash Lite Previewmedium	7.3	Google	$0.115	4.61s
Ver cartão do modelo Total de testes 22 Testes errados 9 Confiabilidade 10.0 Taxa de acerto por tentativa 59.1% Testes instáveis 0 Tokens de entrada 117,480 Tokens de saída 10,589 Tokens de raciocínio 46,394 Tempo de resposta (médio) 4.61s Tempo de resposta (total) 101.39s Tempo de resposta (máx.) 18.34s Resposta incorreta: 7 Não seguiu as instruções: 1 Chamada de ferramenta inválida: 1 Truques anti-IA : 9.1 Programação : 5.5 Combinado : 7.2 Análise e extração de dados : 10.0 Específico do domínio : 3.0 Inteligência geral : 10.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#69#69	Gemini 3.1 Flash Litemedium	7.3	Google	$0.117	4.27s
Ver cartão do modelo Total de testes 22 Testes errados 9 Confiabilidade 10.0 Taxa de acerto por tentativa 62.1% Testes instáveis 2 Tokens de entrada 104,918 Tokens de saída 9,168 Tokens de raciocínio 51,130 Tempo de resposta (médio) 4.27s Tempo de resposta (total) 94.02s Tempo de resposta (máx.) 26.22s Resposta incorreta: 7 Não seguiu as instruções: 1 Chamada de ferramenta inválida: 1 Truques anti-IA : 9.1 Programação : 5.5 Combinado : 7.2 Análise e extração de dados : 10.0 Específico do domínio : 2.9 Inteligência geral : 10.0 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 7.6 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#70#70	Claude Opus 4.8none	7.3	Anthropic	$1.166	4.91s
Ver cartão do modelo Total de testes 22 Testes errados 9 Confiabilidade 10.0 Taxa de acerto por tentativa 63.6% Testes instáveis 2 Tokens de entrada 149,206 Tokens de saída 16,797 Tokens de raciocínio 0 Tempo de resposta (médio) 4.91s Tempo de resposta (total) 108.03s Tempo de resposta (máx.) 35.03s Resposta incorreta: 4 Formatação extra: 3 Não seguiu as instruções: 1 Sem resposta: 1 Truques anti-IA : 6.5 Programação : 5.5 Combinado : 9.8 Análise e extração de dados : 7.3 Específico do domínio : 5.3 Inteligência geral : 10.0 Seguimento de instruções : 9.9 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0

←

1 2 3 8

→

Comparação rápida

Gemini 3.6 FlashmediumvsGemini 3.6 Flashhigh Gemini 3.6 FlashhighvsGemini 3 Flash Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGemini 3.6 Flashlow Gemini 3.6 FlashlowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low GPT-5.5lowvsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGemini 3.5 Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5medium

Leaderboard do AI Benchy

Filtrar modelos

Comparação rápida