AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Google: Gemini 3.1 Pro Preview

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-04-26

Metrică	Seed-2.0-Lite Seed-2.0-Lite medium Lansare: 2026-02-14	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Lansare: 2026-02-19

Metrică	Seed-2.0-Lite Seed-2.0-Lite medium Lansare: 2026-02-14	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Lansare: 2026-02-19
Scor	8.6	9.6
Rang	#8	#2
Fiabilitate	N/D	N/D
Consistență	8.8	10.0
Teste corecte
Rată de trecere pe încercare	83.3%	94.4%
Teste instabile	3	0
Rulări totale	54	54
Cost per rezultat	0.926	3.400
Cost total	$0.121	$0.578
Preț de intrare	$0.250 / 1M	$2.000 / 1M
Preț de ieșire	$2.000 / 1M	$12.000 / 1M
Tokenuri de ieșire	3,257	1,932
Tokenuri de raționament	52,042	40,542
Timp de răspuns (mediu)	30.37s	15.96s
Timp de răspuns (maxim)	168.71s	40.61s
Timp de răspuns (total)	546.72s	175.52s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	8.3	10.0	75.0%	0		17.99s	996	7,142
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	10.0	10.0	100.0%	0		74.49s	436	7,319
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	10.0	10.0	100.0%	0		9.07s	246	1,742
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	5.9	7.2	55.6%	1		88.74s	15	23,897
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	6.7	3.6	66.7%	1		18.25s	304	1,620
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	9.0	7.9	88.9%	1		11.03s	461	3,532
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982

Comparație rapidă

Schimbă perechea de comparație

Seed-2.0-LitemediumvsHY3 PreviewhighDisponibil gratuit Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium Seed-2.0-LitemediumvsGPT-5.5low Seed-2.0-LitemediumvsHY3 PreviewlowDisponibil gratuit Seed-2.0-LitemediumvsGemini 3 Flash Previewnone Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Claude Opus 4.7nonevsSeed-2.0-Litemedium Seed-2.0-LitemediumvsGPT-5.2 Chatnone Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewnone Seed-2.0-LitemediumvsDeepSeek V4 Flashhigh