AI BENCHY

Leaderboard de Benchmark de IA

Name: Resultados de benchmark de modelos AI BENCHY
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-18 Modelos avaliados: 169

169/169

Posição	Modelo	Pontuação	Empresa	Custo total	Tempo de resposta (médio)
#105#105	GLM 5V Turbonone	5.9	Z.ai	$0.052	2.99s
Ver cartão do modelo Total de testes 21 Testes errados 13 Confiabilidade 10.0 Taxa de acerto por tentativa 38.1% Testes instáveis 0 Tokens de entrada 37,100 Tokens de saída 1,766 Tokens de raciocínio 0 Tempo de resposta (médio) 2.99s Tempo de resposta (total) 62.74s Tempo de resposta (máx.) 6.51s Resposta incorreta: 11 Não seguiu as instruções: 2 Truques anti-IA : 4.8 Programação : 5.5 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.6 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 5.3 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#106#106	Qwen3.5 Plus 2026-02-15none	5.8	Qwen	$0.016 ↓	2.31s
Ver cartão do modelo Total de testes 21 Testes errados 12 Confiabilidade 10.0 Taxa de acerto por tentativa 46.0% Testes instáveis 2 Tokens de entrada 45,864 Tokens de saída 2,480 Tokens de raciocínio 0 Tempo de resposta (médio) 2.31s Tempo de resposta (total) 34.63s Tempo de resposta (máx.) 6.65s Resposta incorreta: 12 Truques anti-IA : 4.8 Programação : 4.3 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.4 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#108#108	Owl Alphamedium	5.8	Openrouter	$0.000	11.95s
Ver cartão do modelo Total de testes 21 Testes errados 13 Confiabilidade 10.0 Taxa de acerto por tentativa 39.7% Testes instáveis 1 Tokens de entrada 43,478 Tokens de saída 2,974 Tokens de raciocínio 0 Tempo de resposta (médio) 11.95s Tempo de resposta (total) 250.88s Tempo de resposta (máx.) 58.63s Resposta incorreta: 10 Não seguiu as instruções: 2 Erro de API: 1 Truques anti-IA : 4.8 Programação : 5.4 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.3 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 5.3 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#109#109	Mimo V2 PROnone	5.8	Xiaomi	$0.045 ↓	2.27s
Ver cartão do modelo Total de testes 21 Testes errados 14 Confiabilidade 10.0 Taxa de acerto por tentativa 41.3% Testes instáveis 3 Tokens de entrada 39,344 Tokens de saída 2,352 Tokens de raciocínio 0 Tempo de resposta (médio) 2.27s Tempo de resposta (total) 45.50s Tempo de resposta (máx.) 6.58s Resposta incorreta: 11 Não seguiu as instruções: 2 Erro de API: 1 Truques anti-IA : 3.5 Programação : 5.5 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.3 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 6.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#110#110	Owl Alphanone	5.8	Openrouter	$0.000	9.88s
Ver cartão do modelo Total de testes 21 Testes errados 14 Confiabilidade 10.0 Taxa de acerto por tentativa 36.5% Testes instáveis 1 Tokens de entrada 42,283 Tokens de saída 5,913 Tokens de raciocínio 0 Tempo de resposta (médio) 9.88s Tempo de resposta (total) 207.38s Tempo de resposta (máx.) 47.10s Resposta incorreta: 10 Não seguiu as instruções: 3 Formatação extra: 1 Truques anti-IA : 3.4 Programação : 5.6 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.3 Seguimento de instruções : 6.4 Resolução de quebra-cabeças : 5.4 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#111#111	Kimi K2.6none	5.8	Moonshot AI	$0.079 ↓	13.27s
Ver cartão do modelo Total de testes 21 Testes errados 14 Confiabilidade 10.0 Taxa de acerto por tentativa 36.5% Testes instáveis 2 Tokens de entrada 32,916 Tokens de saída 16,410 Tokens de raciocínio 0 Tempo de resposta (médio) 13.27s Tempo de resposta (total) 278.57s Tempo de resposta (máx.) 238.89s Resposta incorreta: 11 Não seguiu as instruções: 3 Truques anti-IA : 4.6 Programação : 5.5 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 5.4 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 3.1 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#112#112	GPT-5.4none	5.8	OpenAI	$0.122	1.42s
Ver cartão do modelo Total de testes 21 Testes errados 14 Confiabilidade 10.0 Taxa de acerto por tentativa 36.5% Testes instáveis 2 Tokens de entrada 34,212 Tokens de saída 2,417 Tokens de raciocínio 0 Tempo de resposta (médio) 1.42s Tempo de resposta (total) 29.87s Tempo de resposta (máx.) 2.95s Resposta incorreta: 13 Não seguiu as instruções: 1 Truques anti-IA : 3.2 Programação : 5.5 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.4 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 5.6 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#114#114	Mimo V2 Omninone	5.7	Xiaomi	$0.021 ↓	2.44s
Ver cartão do modelo Total de testes 21 Testes errados 13 Confiabilidade 10.0 Taxa de acerto por tentativa 39.7% Testes instáveis 1 Tokens de entrada 40,852 Tokens de saída 3,314 Tokens de raciocínio 0 Tempo de resposta (médio) 2.44s Tempo de resposta (total) 48.81s Tempo de resposta (máx.) 6.81s Resposta incorreta: 10 Erro de API: 1 Formatação extra: 1 Não seguiu as instruções: 1 Truques anti-IA : 3.6 Programação : 4.4 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.1 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 10.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#115#115	Grok 4.1 Fastmedium	5.6	X AI	$0.069 ↑	23.85s
Ver cartão do modelo Total de testes 19 Testes errados 10 Confiabilidade 10.0 Taxa de acerto por tentativa 55.6% Testes instáveis 6 Tokens de entrada 42,845 Tokens de saída 2,006 Tokens de raciocínio 96,334 Tempo de resposta (médio) 23.85s Tempo de resposta (total) 286.16s Tempo de resposta (máx.) 121.79s Não seguiu as instruções: 4 Resposta incorreta: 4 Sem resposta: 1 Tempo esgotado: 1 Truques anti-IA : 8.7 Programação : 7.8 Combinado : 10.0 Análise e extração de dados : 10.0 Específico do domínio : 5.8 Inteligência geral : 4.2 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 5.3 Chamada de ferramentas : 2.8 Conhecimentos gerais : 3.0
#116#116	GLM 5.1none	5.6	Z.ai	$0.058 ↓	4.10s
Ver cartão do modelo Total de testes 21 Testes errados 14 Confiabilidade 10.0 Taxa de acerto por tentativa 41.3% Testes instáveis 4 Tokens de entrada 47,133 Tokens de saída 3,754 Tokens de raciocínio 0 Tempo de resposta (médio) 4.10s Tempo de resposta (total) 86.18s Tempo de resposta (máx.) 32.57s Resposta incorreta: 13 Chamada de ferramenta inválida: 1 Truques anti-IA : 4.0 Programação : 3.9 Combinado : 2.8 Análise e extração de dados : 10.0 Específico do domínio : 2.9 Inteligência geral : 5.0 Seguimento de instruções : 9.8 Resolução de quebra-cabeças : 7.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#117#117	DeepSeek V4 Flashnone	5.5	DeepSeek	$0.007 ↓	26.75s
Ver cartão do modelo Total de testes 21 Testes errados 16 Confiabilidade 10.0 Taxa de acerto por tentativa 30.2% Testes instáveis 3 Tokens de entrada 50,127 Tokens de saída 13,710 Tokens de raciocínio 0 Tempo de resposta (médio) 26.75s Tempo de resposta (total) 561.82s Tempo de resposta (máx.) 111.96s Resposta incorreta: 12 Formatação extra: 2 Não seguiu as instruções: 1 Chamada de ferramenta inválida: 1 Truques anti-IA : 3.0 Programação : 4.2 Combinado : 4.5 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.2 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 3.1 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#118#118	Kimi K2.5none	5.5	Moonshot AI	$0.027 ↑	13.18s
Ver cartão do modelo Total de testes 21 Testes errados 15 Confiabilidade 10.0 Taxa de acerto por tentativa 34.9% Testes instáveis 3 Tokens de entrada 36,034 Tokens de saída 6,657 Tokens de raciocínio 0 Tempo de resposta (médio) 13.18s Tempo de resposta (total) 184.47s Tempo de resposta (máx.) 42.13s Resposta incorreta: 15 Truques anti-IA : 3.6 Programação : 5.5 Combinado : 2.8 Análise e extração de dados : 7.3 Específico do domínio : 5.3 Inteligência geral : 10.0 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 3.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#119#119	MiMo-V2.5-Pronone	5.5	Xiaomi	$0.017 ↓	1.78s
Ver cartão do modelo Total de testes 21 Testes errados 15 Confiabilidade 10.0 Taxa de acerto por tentativa 39.7% Testes instáveis 4 Tokens de entrada 30,724 Tokens de saída 3,043 Tokens de raciocínio 0 Tempo de resposta (médio) 1.78s Tempo de resposta (total) 37.42s Tempo de resposta (máx.) 8.32s Resposta incorreta: 11 Não seguiu as instruções: 4 Truques anti-IA : 3.3 Programação : 4.3 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.0 Seguimento de instruções : 6.4 Resolução de quebra-cabeças : 6.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#120#120	Qwen3.6 27Bnone	5.5	Qwen	$0.028 ↓	3.72s
Ver cartão do modelo Total de testes 21 Testes errados 14 Confiabilidade 10.0 Taxa de acerto por tentativa 47.6% Testes instáveis 6 Tokens de entrada 52,721 Tokens de saída 3,812 Tokens de raciocínio 0 Tempo de resposta (médio) 3.72s Tempo de resposta (total) 78.08s Tempo de resposta (máx.) 11.82s Resposta incorreta: 11 Não seguiu as instruções: 2 Chamada de ferramenta inválida: 1 Truques anti-IA : 3.8 Programação : 5.5 Combinado : 3.0 Análise e extração de dados : 7.3 Específico do domínio : 7.7 Inteligência geral : 5.2 Seguimento de instruções : 6.2 Resolução de quebra-cabeças : 5.3 Chamada de ferramentas : 9.5 Conhecimentos gerais : 3.0
#121#121	Gemma 4 26B A4Bnone	5.5	Google	$0.004 ↓	5.91s
Ver cartão do modelo Total de testes 21 Testes errados 13 Confiabilidade 10.0 Taxa de acerto por tentativa 44.4% Testes instáveis 2 Tokens de entrada 40,038 Tokens de saída 1,824 Tokens de raciocínio 0 Tempo de resposta (médio) 5.91s Tempo de resposta (total) 124.05s Tempo de resposta (máx.) 57.10s Resposta incorreta: 10 Não seguiu as instruções: 2 Tempo esgotado: 1 Truques anti-IA : 8.3 Programação : 3.7 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 3.6 Inteligência geral : 4.0 Seguimento de instruções : 6.3 Resolução de quebra-cabeças : 6.2 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#122#122	Qwen3.5 Plus 2026-04-20none	5.5	Qwen	$0.032 ↓	4.39s
Ver cartão do modelo Total de testes 21 Testes errados 14 Confiabilidade 10.0 Taxa de acerto por tentativa 41.3% Testes instáveis 4 Tokens de entrada 38,910 Tokens de saída 11,145 Tokens de raciocínio 0 Tempo de resposta (médio) 4.39s Tempo de resposta (total) 92.26s Tempo de resposta (máx.) 33.34s Resposta incorreta: 12 Não seguiu as instruções: 2 Truques anti-IA : 4.8 Programação : 3.9 Combinado : 2.8 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.8 Seguimento de instruções : 6.2 Resolução de quebra-cabeças : 6.7 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#123#123	GLM 5 Turbonone	5.3	Z.ai	$0.047 ↑	2.82s
Ver cartão do modelo Total de testes 21 Testes errados 15 Confiabilidade 10.0 Taxa de acerto por tentativa 31.8% Testes instáveis 2 Tokens de entrada 32,525 Tokens de saída 1,815 Tokens de raciocínio 0 Tempo de resposta (médio) 2.82s Tempo de resposta (total) 59.29s Tempo de resposta (máx.) 8.21s Resposta incorreta: 13 Não seguiu as instruções: 2 Truques anti-IA : 3.0 Programação : 3.9 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.2 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 5.5 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#124#124	GPT-5.4 Mininone	5.3	OpenAI	$0.038	1.13s
Ver cartão do modelo Total de testes 21 Testes errados 16 Confiabilidade 10.0 Taxa de acerto por tentativa 30.2% Testes instáveis 3 Tokens de entrada 34,244 Tokens de saída 2,541 Tokens de raciocínio 0 Tempo de resposta (médio) 1.13s Tempo de resposta (total) 23.82s Tempo de resposta (máx.) 2.52s Resposta incorreta: 13 Não seguiu as instruções: 3 Truques anti-IA : 3.1 Programação : 5.5 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 3.5 Inteligência geral : 4.8 Seguimento de instruções : 6.3 Resolução de quebra-cabeças : 5.4 Chamada de ferramentas : 3.0 Conhecimentos gerais : 3.0
#125#125	Qwen3.5-122B-A10Bnone	5.3	Qwen	$0.020 ↓	3.41s
Ver cartão do modelo Total de testes 21 Testes errados 15 Confiabilidade 10.0 Taxa de acerto por tentativa 31.8% Testes instáveis 1 Tokens de entrada 47,735 Tokens de saída 3,383 Tokens de raciocínio 0 Tempo de resposta (médio) 3.41s Tempo de resposta (total) 71.59s Tempo de resposta (máx.) 46.00s Resposta incorreta: 13 Não seguiu as instruções: 2 Truques anti-IA : 4.8 Programação : 3.7 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 5.0 Seguimento de instruções : 6.3 Resolução de quebra-cabeças : 3.8 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#126#126	DeepSeek V3.2none	5.3	DeepSeek	$0.017 ↓	13.83s
Ver cartão do modelo Total de testes 21 Testes errados 15 Confiabilidade 10.0 Taxa de acerto por tentativa 39.7% Testes instáveis 6 Tokens de entrada 55,997 Tokens de saída 11,165 Tokens de raciocínio 0 Tempo de resposta (médio) 13.83s Tempo de resposta (total) 290.43s Tempo de resposta (máx.) 115.89s Resposta incorreta: 7 Erro de API: 4 Formatação extra: 2 Não seguiu as instruções: 1 Chamada de ferramenta inválida: 1 Truques anti-IA : 3.2 Programação : 3.1 Combinado : 6.5 Análise e extração de dados : 6.3 Específico do domínio : 2.9 Inteligência geral : 4.7 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 7.6 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#127#127	MiniMax M2.7medium	5.2	Minimax	$0.104 ↓	38.18s
Ver cartão do modelo Total de testes 21 Testes errados 16 Confiabilidade 10.0 Taxa de acerto por tentativa 46.0% Testes instáveis 8 Tokens de entrada 34,371 Tokens de saída 8,981 Tokens de raciocínio 89,812 Tempo de resposta (médio) 38.18s Tempo de resposta (total) 763.60s Tempo de resposta (máx.) 196.21s Resposta incorreta: 6 Não seguiu as instruções: 5 Tempo esgotado: 2 Erro de API: 1 Chamada de ferramenta inválida: 1 Sem resposta: 1 Truques anti-IA : 7.9 Programação : 5.7 Combinado : 4.7 Análise e extração de dados : 6.3 Específico do domínio : 3.0 Inteligência geral : 3.9 Seguimento de instruções : 3.8 Resolução de quebra-cabeças : 5.9 Chamada de ferramentas : 4.7 Conhecimentos gerais : 3.0
#128#128	Qwen3.6 35B A3Bnone	5.2	Qwen	$0.031 ↑	3.73s
Ver cartão do modelo Total de testes 21 Testes errados 17 Confiabilidade 10.0 Taxa de acerto por tentativa 30.2% Testes instáveis 5 Tokens de entrada 19,329 Tokens de saída 27,755 Tokens de raciocínio 0 Tempo de resposta (médio) 3.73s Tempo de resposta (total) 70.86s Tempo de resposta (máx.) 22.52s Resposta incorreta: 13 Erro de API: 2 Não seguiu as instruções: 2 Truques anti-IA : 3.6 Programação : 5.5 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 3.5 Inteligência geral : 4.4 Seguimento de instruções : 6.2 Resolução de quebra-cabeças : 3.2 Chamada de ferramentas : 3.0 Conhecimentos gerais : 3.0
#129#129	Mistral Small 4none	5.1	Mistral	$0.007	630ms
Ver cartão do modelo Total de testes 21 Testes errados 16 Confiabilidade 10.0 Taxa de acerto por tentativa 27.0% Testes instáveis 1 Tokens de entrada 37,309 Tokens de saída 2,201 Tokens de raciocínio 0 Tempo de resposta (médio) 630ms Tempo de resposta (total) 13.22s Tempo de resposta (máx.) 1.72s Resposta incorreta: 15 Não seguiu as instruções: 1 Truques anti-IA : 3.4 Programação : 3.7 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.0 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 3.1 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#130#130	Qwen3 Coder Nextnone	5.1	Qwen	$0.009 ↓	8.62s
Ver cartão do modelo Total de testes 21 Testes errados 16 Confiabilidade 10.0 Taxa de acerto por tentativa 27.0% Testes instáveis 1 Tokens de entrada 47,507 Tokens de saída 3,584 Tokens de raciocínio 0 Tempo de resposta (médio) 8.62s Tempo de resposta (total) 129.37s Tempo de resposta (máx.) 45.14s Resposta incorreta: 14 Formatação extra: 1 Não seguiu as instruções: 1 Truques anti-IA : 3.6 Programação : 4.6 Combinado : 3.0 Análise e extração de dados : 6.5 Específico do domínio : 5.3 Inteligência geral : 10.0 Seguimento de instruções : 6.3 Resolução de quebra-cabeças : 3.0 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#133#133	Mistral Small 4medium	5.1	Mistral	$0.068	9.40s
Ver cartão do modelo Total de testes 21 Testes errados 16 Confiabilidade 10.0 Taxa de acerto por tentativa 44.4% Testes instáveis 8 Tokens de entrada 42,576 Tokens de saída 24,184 Tokens de raciocínio 84,678 Tempo de resposta (médio) 9.40s Tempo de resposta (total) 197.39s Tempo de resposta (máx.) 59.15s Resposta incorreta: 12 Erro de API: 2 Não seguiu as instruções: 2 Truques anti-IA : 5.6 Programação : 4.4 Combinado : 3.0 Análise e extração de dados : 7.3 Específico do domínio : 5.3 Inteligência geral : 4.8 Seguimento de instruções : 7.3 Resolução de quebra-cabeças : 3.4 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#134#134	MiMo-V2.5none	5.1	Xiaomi	$0.007 ↓	2.20s
Ver cartão do modelo Total de testes 21 Testes errados 16 Confiabilidade 10.0 Taxa de acerto por tentativa 27.0% Testes instáveis 1 Tokens de entrada 41,985 Tokens de saída 2,267 Tokens de raciocínio 0 Tempo de resposta (médio) 2.20s Tempo de resposta (total) 46.21s Tempo de resposta (máx.) 6.86s Resposta incorreta: 14 Formatação extra: 1 Não seguiu as instruções: 1 Truques anti-IA : 3.5 Programação : 5.5 Combinado : 3.0 Análise e extração de dados : 6.5 Específico do domínio : 3.0 Inteligência geral : 4.4 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 5.4 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#135#135	Qwen3.5-9Bnone	5.1	Qwen	$0.006 ↑	1.89s
Ver cartão do modelo Total de testes 21 Testes errados 17 Confiabilidade 10.0 Taxa de acerto por tentativa 20.6% Testes instáveis 1 Tokens de entrada 48,041 Tokens de saída 3,952 Tokens de raciocínio 0 Tempo de resposta (médio) 1.89s Tempo de resposta (total) 39.68s Tempo de resposta (máx.) 6.03s Resposta incorreta: 14 Não seguiu as instruções: 2 Chamada de ferramenta inválida: 1 Truques anti-IA : 3.1 Programação : 3.9 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 3.0 Inteligência geral : 4.4 Seguimento de instruções : 6.5 Resolução de quebra-cabeças : 3.2 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#137#137	Trinity Large Previewnone	5.0	Arcee AI	$0.008 ↑	2.98s
Ver cartão do modelo Total de testes 21 Testes errados 17 Confiabilidade 10.0 Taxa de acerto por tentativa 22.2% Testes instáveis 2 Tokens de entrada 29,828 Tokens de saída 2,169 Tokens de raciocínio 0 Tempo de resposta (médio) 2.98s Tempo de resposta (total) 56.57s Tempo de resposta (máx.) 14.34s Resposta incorreta: 12 Não seguiu as instruções: 3 Erro de API: 2 Truques anti-IA : 3.1 Programação : 3.7 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 4.5 Seguimento de instruções : 3.5 Resolução de quebra-cabeças : 3.6 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#138#138	Laguna M.1medium	5.0	Poolside	$0.000	14.73s
Ver cartão do modelo Total de testes 19 Testes errados 10 Confiabilidade 10.0 Taxa de acerto por tentativa 47.6% Testes instáveis 2 Tokens de entrada 44,969 Tokens de saída 58,087 Tokens de raciocínio 0 Tempo de resposta (médio) 14.73s Tempo de resposta (total) 220.93s Tempo de resposta (máx.) 53.14s Erro de API: 4 Resposta incorreta: 4 Não seguiu as instruções: 1 Sem resposta: 1 Truques anti-IA : 6.5 Programação : 1.5 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 5.3 Inteligência geral : 3.0 Seguimento de instruções : 10.0 Resolução de quebra-cabeças : 5.3 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0
#139#139	GPT-4o-mininone	5.0	OpenAI	$0.006	1.77s
Ver cartão do modelo Total de testes 21 Testes errados 16 Confiabilidade 10.0 Taxa de acerto por tentativa 23.8% Testes instáveis 0 Tokens de entrada 31,518 Tokens de saída 1,982 Tokens de raciocínio 0 Tempo de resposta (médio) 1.77s Tempo de resposta (total) 24.80s Tempo de resposta (máx.) 7.58s Resposta incorreta: 15 Não seguiu as instruções: 1 Truques anti-IA : 4.8 Programação : 3.2 Combinado : 3.0 Análise e extração de dados : 10.0 Específico do domínio : 3.0 Inteligência geral : 4.0 Seguimento de instruções : 6.3 Resolução de quebra-cabeças : 3.5 Chamada de ferramentas : 10.0 Conhecimentos gerais : 3.0

←

1 2 3 4 5 6

→

Comparação rápida

Gemini 3.5 FlashhighvsGemini 3 Flash Previewmedium Gemini 3.5 FlashhighvsQwen3.7 Maxmedium Gemini 3.5 FlashhighvsGPT-5.5low Gemini 3.5 FlashhighvsGemini 3.5 Flashlow Gemini 3.5 FlashhighvsClaude Fable 5medium Gemini 3.5 FlashhighvsGemini 3.1 Pro Previewmedium Gemini 3.5 FlashhighvsNemotron 3 Ultra 550b A55bmediumDisponível grátis Gemini 3.5 FlashhighvsNorth Mini CodemediumDisponível grátis Gemini 3 Flash PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGPT-5.5low GPT-5.5lowvsGemini 3.5 Flashlow Gemini 3.5 FlashlowvsClaude Fable 5medium

Leaderboard de Benchmark de IA

Filtrar modelos

Comparação rápida