AI BENCHY Compare

Arcee AI: Trinity Large Preview vs OpenAI: GPT-4o-mini

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-30

Métrica	Trinity Large Preview Trinity Large Preview none Lançamento: 2026-01-27	GPT-4o-mini GPT-4o-mini none Lançamento: 2024-07-18

Métrica	Trinity Large Preview Trinity Large Preview none Lançamento: 2026-01-27	GPT-4o-mini GPT-4o-mini none Lançamento: 2024-07-18
Pontuação	5.2	5.1
Posição	#110	#119
Confiabilidade	N/D	N/D
Consistência	9.6	9.9
Testes corretos
Taxa de acerto por tentativa	29.6%	27.8%
Testes instáveis	1	0
Execuções totais	52	54
Custo por resultado	0.000	0.098
Custo total	$0.000	$0.005
Preço de entrada	$0.150 / 1M	$0.150 / 1M
Preço de saída	$0.450 / 1M	$0.600 / 1M
Tokens de saída	1,985	1,947
Tokens de raciocínio	0	0
Tempo de resposta (médio)	5.07s	2.00s
Tempo de resposta (máx.)	39.47s	7.58s
Tempo de resposta (total)	91.23s	21.99s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	3.0	10.0	0.0%	0		3.02s	593	0
GPT-4o-mini	4.8	10.0	25.0%	0		1.34s	186	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	6.3	10.0	0.0%	0		39.47s	142	0
GPT-4o-mini	3.0	8.7	0.0%	0		2.55s	347	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	3.0	10.0	0.0%	0		8.91s	294	0
GPT-4o-mini	3.0	10.0	0.0%	0		7.58s	568	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	10.0	10.0	100.0%	0		3.26s	186	0
GPT-4o-mini	10.0	10.0	100.0%	0		1.27s	183	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	5.3	10.0	33.3%	0		877ms	25	0
GPT-4o-mini	3.0	10.0	0.0%	0		637ms	15	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	4.4	9.9	0.0%	0		2.86s	124	0
GPT-4o-mini	4.0	10.0	0.0%	0		909ms	66	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	3.4	6.2	16.7%	1		1.09s	63	0
GPT-4o-mini	6.3	10.0	50.0%	0		1.27s	69	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	5.4	10.0	33.3%	0		3.30s	291	0
GPT-4o-mini	3.7	10.0	0.0%	0		1.30s	308	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	205	0

Comparação rápida

Trocar par de comparação

Trinity Large PreviewnonevsElephant Alphamedium Trinity Large PreviewnonevsNemotron 3 Nano Omni 30b A3b ReasoningmediumDisponível grátis Trinity Large PreviewnonevsMiniMax M2.7medium Nemotron 3 Nano Omni 30b A3b ReasoningmediumDisponível grátisvsGPT-4o-mininone GPT-4o-mininonevsQwen3 Coder Nextmedium GPT-4o-mininonevsElephant Alphamedium MiniMax M2.7mediumvsGPT-4o-mininone Trinity Large PreviewnonevsQwen3 Coder Nextmedium Trinity Large PreviewnonevsMiniMax M2.5mediumDisponível grátis Trinity Large PreviewnonevsMistral Small 4medium GPT-4o-mininonevsGLM 4.7 Flashmedium MiniMax M2.5mediumDisponível grátisvsGPT-4o-mininone