MoonshotAI: Kimi K2.6 vs OpenAI: gpt-oss-120b

gpt-oss-120b (medium) lidera na pontuação média com 6.1 vs 5.8. gpt-oss-120b (medium) tem menor custo de benchmark com $0.019 vs $0.184. Kimi K2.6 é mais rápido com 19.58s vs 21.91s, com taxas de acerto de 34.9% vs 50.0%.

Modelo recomendadogpt-oss-120b (medium)Tem a melhor pontuação aqui (6.1) e custa cerca de 9.8x menos que Kimi K2.6.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-20

Métrica	Kimi K2.6 Kimi K2.6 none Lançamento: 2026-04-20	gpt-oss-120b gpt-oss-120b medium Lançamento: 2025-08-05

Métrica	Kimi K2.6 Kimi K2.6 none Lançamento: 2026-04-20	gpt-oss-120b gpt-oss-120b medium Lançamento: 2025-08-05
Pontuação	5.8	6.1
Posição	#138	#121
Confiabilidade	10.0	10.0
Consistência	9.3	8.0
Testes corretos
Taxa de acerto por tentativa	34.9%	50.0%
Testes instáveis	2	5
Execuções totais	66	66
Custo por resultado	3.199	0.221
Custo total	$0.184	$0.019
Preço de entrada	$0.684 / 1M	$0.037 / 1M
Preço de saída	$3.420 / 1M	$0.170 / 1M
Total de tokens de entrada	116,970	108,747
Tokens de saída	30,253	29,772
Tokens de raciocínio	0	68,044
Tempo de resposta (médio)	19.58s	21.91s
Tempo de resposta (máx.)	238.89s	68.16s
Tempo de resposta (total)	430.85s	328.70s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#138 MoonshotAI: Kimi K2.6

none

Custo: $0.020
Tempo: 127.4s
Tokens: 4,429 tok

#121 gpt-oss-120b

medium

Custo: $0.001
Tempo: 26.7s
Tokens: 555 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Categoria:

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.6	4.6	10.0	25.0%	0		1.39s	618	471	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	1,314	3,518	2,177

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.6	5.5	9.8	33.3%	0		82.57s	5,986	14,754	0
gpt-oss-120b	5.9	7.0	55.6%	1		38.37s	7,782	3,365	11,973

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.6	3.0	10.0	0.0%	0		77.83s	95,323	14,133	0
gpt-oss-120b	6.5	10.0	50.0%	0		23.96s	81,198	10,453	22,883

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.6	10.0	10.0	100.0%	0		1.32s	7,014	201	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	7,476	241	1,114

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.6	5.3	7.2	44.4%	1		1.48s	732	42	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	1,266	6,784	20,606

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.6	5.4	3.5	33.3%	1		1.55s	477	138	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	659	107	387

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.6	6.5	10.0	50.0%	0		1.64s	669	72	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	1,036	126	1,799

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.6	3.1	9.9	0.0%	0		1.40s	651	185	0
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,190	1,790	2,264

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.6	10.0	10.0	100.0%	0		4.46s	5,286	240	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	6,514	287	1,083

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Kimi K2.6	3.0	10.0	0.0%	0		1.36s	214	17	0
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	312	3,101	3,758

Comparação rápida

Trocar par de comparação

Gemini 3.1 Flash Litenonevsgpt-oss-120bmedium gpt-oss-120bmediumvsInklinglow gpt-oss-120bmediumvsQwen3.6 Flashnone Gemini 3.1 Flash Liteminimalvsgpt-oss-120bmedium gpt-oss-120bmediumvsQwen3.5-Flashnone gpt-oss-120bmediumvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumvsQwen3.5-35B-A3Bnone Gemini 2.5 Flashnonevsgpt-oss-120bmedium Nemotron 3 UltranoneDisponível grátisvsgpt-oss-120bmedium North Mini CodemediumDisponível grátisvsKimi K2.6none Kimi K2.6nonevsNemotron 3 SupermediumDisponível grátis Seed-2.0-Litenonevsgpt-oss-120bmedium