Modelos comparados

Comparação benchmark Nemotron 3 Super (medium) vs Qwen3.5-122B-A10B (medium) vs Elephant Alpha (medium) vs gpt-oss-120b (medium)Qwen3.5-122B-A10B (medium) lidera em Pontuação com 7.1. Qwen3.5-122B-A10B (medium) lidera em Confiabilidade com 10.0. Elephant Alpha (medium) tem o menor Custo total em $0.000. Elephant Alpha (medium) é o mais rápido com 1.27s.

Modelo recomendadogpt-oss-120b (medium)Oferece o melhor compromisso geral: pontuação competitiva (6.1), custo menor que os outros modelos nesta comparação e tempo de resposta equilibrado.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-17

Métrica	Nemotron 3 Super Nemotron 3 Super medium Lançamento: 2026-03-11 Disponível grátis	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Lançamento: 2026-02-24	Elephant Alpha Elephant Alpha medium Lançamento: 2026-04-14	gpt-oss-120b gpt-oss-120b medium Lançamento: 2025-08-05

Métrica	Nemotron 3 Super Nemotron 3 Super medium Lançamento: 2026-03-11 Disponível grátis	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Lançamento: 2026-02-24	Elephant Alpha Elephant Alpha medium Lançamento: 2026-04-14	gpt-oss-120b gpt-oss-120b medium Lançamento: 2025-08-05
Pontuação	5.7	7.1	4.3	6.1
Posição	#133	#69	#187	#115
Confiabilidade	8.7	10.0	N/D	10.0
Consistência	8.9	8.5	9.2	8.0
Testes corretos
Taxa de acerto por tentativa	40.9%	71.2%	28.8%	50.0%
Testes instáveis	3	4	1	5
Execuções totais	66	66	63	66
Custo por resultado	0.004	8.509	0.000	0.221
Custo total	$0.066	$1.046	$0.000	$0.019
Preço de entrada	$0.210 / 1M	$0.260 / 1M	$0.000 / 1M	$0.037 / 1M
Preço de saída	$0.455 / 1M	$2.080 / 1M	$0.000 / 1M	$0.170 / 1M
Total de tokens de entrada	81,429	124,771	33,744	108,747
Tokens de saída	18,371	44,077	2,596	29,772
Tokens de raciocínio	98,853	443,141	0	68,044
Tempo de resposta (médio)	51.99s	64.16s	1.27s	21.91s
Tempo de resposta (máx.)	431.98s	519.30s	3.70s	68.16s
Tempo de resposta (total)	1039.89s	1411.60s	22.82s	328.70s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#133 Nemotron 3 Super

medium

Custo: $0.000
Tempo: 272.6s
Tokens: 5,296 tok

#69 Qwen3.5-122B-A10B

medium

Custo: $0.019
Tempo: 48.7s
Tokens: 6,034 tok

#187 Elephant Alpha

medium

Elephant Alpha was a stealth model revealed on April 21st as Ling-2.6-flash. Find it here: https://openrouter.ai/inclusionai/ling-2.6-flash:free

Custo: $0.000
Tempo: 0.1s
Tokens: 0 tok

#115 gpt-oss-120b

medium

Custo: $0.001
Tempo: 26.7s
Tokens: 555 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Categoria:

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Nemotron 3 Super	8.3	10.0	75.0%	7.85s	686	748	1,305
Qwen3.5-122B-A10B	10.0	10.0	100.0%	9.75s	672	269	16,835
Elephant Alpha	6.6	10.0	50.0%	1.19s	726	815	0
gpt-oss-120b	6.7	9.9	50.0%	10.21s	1,314	3,518	2,177

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Nemotron 3 Super	3.1	10.0	0.0%	0	147.32s	2,275	797	4,424
Qwen3.5-122B-A10B	6.0	7.2	55.6%	1	114.48s	7,630	8,057	82,578
Elephant Alpha	3.7	7.8	11.1%	1	1.30s	813	365	0
gpt-oss-120b	5.9	7.0	55.6%	1	38.37s	7,782	3,365	11,973

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Nemotron 3 Super	6.4	5.8	66.7%	1	259.89s	59,463	5,542	75,095
Qwen3.5-122B-A10B	6.4	5.8	66.7%	1	313.55s	97,886	18,373	203,450
Elephant Alpha	1.5	5.0	0.0%	0	3.70s	14,046	562	0
gpt-oss-120b	6.5	10.0	50.0%	0	23.96s	81,198	10,453	22,883

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Nemotron 3 Super	10.0	10.0	100.0%	0	18.16s	7,944	877	2,607
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0	23.41s	7,782	270	16,558
Elephant Alpha	6.5	10.0	50.0%	0	979ms	8,004	246	0
gpt-oss-120b	6.4	5.9	66.7%	1	1.98s	7,476	241	1,114

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Nemotron 3 Super	2.9	4.4	22.2%	2	16.19s	456	5,255	6,072
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1	63.40s	771	15,537	64,889
Elephant Alpha	3.0	10.0	0.0%	0	925ms	810	24	0
gpt-oss-120b	2.9	4.4	22.2%	2	50.92s	1,266	6,784	20,606

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Nemotron 3 Super	4.1	10.0	0.0%	0	6.91s	492	105	363
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1	34.11s	344	66	7,592
Elephant Alpha	4.3	10.0	0.0%	0	920ms	540	105	0
gpt-oss-120b	4.3	10.0	0.0%	0	7.90s	659	107	387

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Nemotron 3 Super	7.3	10.0	50.0%	6.97s	723	956	2,383
Qwen3.5-122B-A10B	10.0	10.0	100.0%	9.88s	593	77	7,372
Elephant Alpha	9.8	10.0	100.0%	987ms	732	82	0
gpt-oss-120b	9.9	10.0	100.0%	7.63s	1,036	126	1,799

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Nemotron 3 Super	3.0	10.0	0.0%	0	3.15s	708	570	1,322
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0	17.89s	696	284	27,575
Elephant Alpha	5.3	10.0	33.3%	0	868ms	729	166	0
gpt-oss-120b	5.3	7.2	44.4%	1	21.71s	1,190	1,790	2,264

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Nemotron 3 Super	10.0	10.0	100.0%	39.75s	8,544	270	1,969
Qwen3.5-122B-A10B	10.0	10.0	100.0%	4.60s	8,193	322	1,226
Elephant Alpha	3.0	10.0	0.0%	2.83s	7,344	231	0
gpt-oss-120b	9.8	10.0	100.0%	6.91s	6,514	287	1,083

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Nemotron 3 Super	3.0	10.0	0.0%	55.32s	138	3,251	3,313
Qwen3.5-122B-A10B	3.0	10.0	0.0%	52.87s	204	822	15,066
Elephant Alpha	3.0	10.0	0.0%	0ms	0	0	0
gpt-oss-120b	3.0	10.0	0.0%	26.51s	312	3,101	3,758

Comparação rápida

Trocar par de comparação

Gemini 3.1 Flash Litenonevsgpt-oss-120bmedium Nemotron 3 SupermediumDisponível grátisvsGLM 5none gpt-oss-120bmediumvsQwen3.6 Flashnone Gemini 3.1 Flash Liteminimalvsgpt-oss-120bmedium gpt-oss-120bmediumvsQwen3.5-Flashnone gpt-oss-120bmediumvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumvsQwen3.5-35B-A3Bnone Gemini 2.5 Flashnonevsgpt-oss-120bmedium Nemotron 3 UltranoneDisponível grátisvsgpt-oss-120bmedium Nemotron 3 SupermediumDisponível grátisvsGPT-5.4none Kimi K2.6nonevsNemotron 3 SupermediumDisponível grátis Nemotron 3 SupermediumDisponível grátisvsQwen3.5-122B-A10Bnone