AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3.5-Flash

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-17

Metrică	Seed-2.0-Lite Seed-2.0-Lite medium Lansare: 2026-02-14	Qwen3.5-Flash Qwen3.5-Flash medium Lansare: 2026-02-24

Metrică	Seed-2.0-Lite Seed-2.0-Lite medium Lansare: 2026-02-14	Qwen3.5-Flash Qwen3.5-Flash medium Lansare: 2026-02-24
Rang	#5	#19
Scor	8.5	8.0
Consistență	8.8	7.6
Cost per rezultat	0.873	0.688
Cost total	$0.105	$0.076
Teste corecte
Rată de trecere pe încercare	82.4%	82.4%
Teste instabile	3	5
Rulări totale	51	51
Tokenuri de ieșire	2,821	1,827
Tokenuri de raționament	44,723	179,299
Timp de răspuns (mediu)	27.78s	67.96s
Timp de răspuns (maxim)	168.71s	234.29s
Timp de răspuns (total)	472.24s	1155.28s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	8.3	10.0	75.0%	0		17.99s	996	7,142
Qwen3.5-Flash	10.0	10.0	100.0%	0		59.11s	383	32,992

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	483	8,270

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	10.0	10.0	100.0%	0		9.07s	246	1,742
Qwen3.5-Flash	7.3	5.9	83.3%	1		56.99s	235	16,237

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	5.9	7.2	55.6%	1		88.74s	15	23,897
Qwen3.5-Flash	5.3	7.2	44.4%	1		146.50s	58	43,615

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	6.7	3.6	66.7%	1		18.25s	304	1,620
Qwen3.5-Flash	6.1	3.1	66.7%	1		40.05s	99	38,486

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	98	14,139

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	9.0	7.9	88.9%	1		11.03s	461	3,532
Qwen3.5-Flash	6.4	4.4	77.8%	2		56.74s	162	24,276

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	309	1,284

Comparație rapidă

Schimbă perechea de comparație

Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium GPT-5.2 ChatnonevsQwen3.5-Flashmedium Seed-2.0-LitemediumvsGemini 3 Flash Previewlow GPT-5.3 ChatnonevsQwen3.5-Flashmedium Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-LitemediumvsGemini 3 Flash Previewnone Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewnone Seed-2.0-LitemediumvsGPT-5.2 Chatnone Gemini 3 Flash PreviewlowvsQwen3.5-Flashmedium Claude Sonnet 4.6nonevsQwen3.5-Flashmedium