Comparar Gráficos Metodologia

Idioma:

❤️ Made by XCS

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs Google: Gemini 3.1 Flash Lite Preview

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-06

Métrica	ByteDance Seed: Seed-2.0-Mini medium Lançamento: 2026-02-14	Google: Gemini 3.1 Flash Lite Preview high Lançamento: 2026-03-03
Posição	#23	#8
Pontuação média	6.9	8.2
Consistência	9.1	9.6
Custo por resultado	0.280	19.243
Custo total	$0.028	$2.310
Testes corretos
Taxa de acerto por tentativa	68.8%	77.1%
Testes instáveis	2	1
common.totalRuns	48 (16 x 3)	48 (16 x 3)
Tokens de saída	1,965	1,283
Tokens de raciocínio	58,456	1,533,310
Tempo de resposta (médio)	65.09s	68.83s
Tempo de resposta (máx.)	262.83s	280.52s
Tempo de resposta (total)	846.14s	1101.32s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
ByteDance Seed: Seed-2.0-Mini	7.0	10.0	66.7%	0		98.99s	354	9,352
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		43.87s	144	193,077

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		280.52s	335	380,440

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
ByteDance Seed: Seed-2.0-Mini	9.9	10.0	100.0%	0		24.27s	246	2,743
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		7.16s	279	6,186

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	0.0%	0		0ms	0	0
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		127.58s	18	566,202

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
ByteDance Seed: Seed-2.0-Mini	6.0	3.4	33.3%	1		36.65s	213	4,210
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		5.25s	117	3,915

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
Google: Gemini 3.1 Flash Lite Preview	9.0	6.9	66.7%	1		70.07s	69	190,053

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
ByteDance Seed: Seed-2.0-Mini	7.0	7.2	88.9%	1		25.85s	457	5,060
Google: Gemini 3.1 Flash Lite Preview	7.0	10.0	66.7%	0		46.33s	87	190,953

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		7.73s	234	2,484

Comparação rápida

Trocar par de comparação

Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-27Bmedium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Gemini 3.1 Flash Lite PreviewhighvsQwen3.5 Plus 2026-02-15medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.4medium Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3-Codexmedium Seed-2.0-MinimediumvsGemini 3 Flash Previewnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Seed-2.0-MinimediumvsGPT-5.2 Chatnone