AI BENCHY Compare

Trinity Large Preview vs OpenAI: gpt-oss-120b

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-03

Métrica	Trinity Large Preview Trinity Large Preview none Lançamento: 2026-01-27	gpt-oss-120b gpt-oss-120b none Lançamento: 2025-08-05 Disponível grátis

Métrica	Trinity Large Preview Trinity Large Preview none Lançamento: 2026-01-27	gpt-oss-120b gpt-oss-120b none Lançamento: 2025-08-05 Disponível grátis
Pontuação	4.7	5.4
Posição	#148	#126
Confiabilidade	10.0	10.0
Consistência	9.3	9.1
Testes corretos
Taxa de acerto por tentativa	23.3%	38.6%
Testes instáveis	2	2
Execuções totais	60	57
Custo por resultado	0.017	0.168
Custo total	$0.008	$0.010
Preço de entrada	$0.243 / 1M	$0.039 / 1M
Preço de saída	$0.243 / 1M	$0.180 / 1M
Total de tokens de entrada	29,828	9,081
Tokens de saída	2,169	51,664
Tokens de raciocínio	0	0
Tempo de resposta (médio)	2.98s	21.61s
Tempo de resposta (máx.)	14.34s	113.71s
Tempo de resposta (total)	56.57s	345.79s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	3.1	10.0	0.0%	0		2.07s	651	550	0
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	1,336	8,676	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	4.0	6.6	16.7%	1		14.34s	738	397	0
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	901	3,232	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	3.0	10.0	0.0%	0		8.91s	12,053	294	0
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	10.0	10.0	100.0%	0		3.26s	6,900	186	0
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	2,421	598	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	5.3	10.0	33.3%	0		877ms	738	25	0
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	1,294	29,483	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	4.5	10.0	0.0%	0		873ms	498	104	0
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	584	615	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	3.5	10.0	0.0%	0		822ms	678	63	0
gpt-oss-120b	9.8	10.0	100.0%	0		5.06s	1,043	1,940	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	3.6	7.7	11.1%	1		1.97s	669	265	0
gpt-oss-120b	6.0	7.2	55.6%	1		8.21s	1,188	3,982	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	6,699	267	0
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Trinity Large Preview	3.0	10.0	0.0%	0		777ms	204	18	0
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	314	3,138	0

Comparação rápida

Trocar par de comparação

Trinity Large PreviewnonevsQwen3 Coder Nextmedium MiniMax M2.5mediumvsgpt-oss-120bnoneDisponível grátis MiniMax M2.7mediumvsgpt-oss-120bnoneDisponível grátis Mistral Small 4mediumvsgpt-oss-120bnoneDisponível grátis gpt-oss-120bnoneDisponível grátisvsElephant Alphamedium Trinity Large PreviewnonevsGLM 4.7 Flashmedium Cobuddymediumvsgpt-oss-120bnoneDisponível grátis gpt-oss-120bnoneDisponível grátisvsOwl Alphamedium Trinity Large PreviewnonevsQwen3.5-9Bmedium Nemotron 3 SupermediumDisponível grátisvsgpt-oss-120bnoneDisponível grátis Trinity Large PreviewnonevsElephant Alphamedium DeepSeek V4 Prohighvsgpt-oss-120bnoneDisponível grátis