AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs Qwen: Qwen3.6 Max Preview

Rezumat

Comparație benchmark Seed-2.0-Mini vs Qwen3.6 Max Preview: Scorul mediu este practic egal la 6.9 vs 6.9. Seed-2.0-Mini are costul de benchmark mai mic, $0.044 vs $0.075. Qwen3.6 Max Preview este mai rapid cu 3.30s vs 80.22s, cu rate de reușită de 57.1% vs 58.7%.

Model recomandat: Qwen3.6 Max Preview - Are cel mai bun scor aici (6.9) și răspunde de aproximativ 24.3x mai rapid decât Seed-2.0-Mini.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-10

Metrică	Seed-2.0-Mini Seed-2.0-Mini medium Lansare: 2026-02-14	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lansare: 2026-04-20

Metrică	Seed-2.0-Mini Seed-2.0-Mini medium Lansare: 2026-02-14	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lansare: 2026-04-20
Scor	6.9	6.9
Rang	#74	#75
Fiabilitate	6.7	10.0
Consistență	9.3	9.2
Teste corecte
Rată de trecere pe încercare	57.1%	58.7%
Teste instabile	2	2
Rulări totale	63	63
Cost per rezultat	0.397	0.824
Cost total	$0.044	$0.075
Preț de intrare	$0.100 / 1M	$1.040 / 1M
Preț de ieșire	$0.400 / 1M	$6.240 / 1M
Total tokenuri de intrare	41,904	42,509
Tokenuri de ieșire	2,555	4,779
Tokenuri de raționament	95,974	0
Timp de răspuns (mediu)	80.22s	3.30s
Timp de răspuns (maxim)	262.83s	20.51s
Timp de răspuns (total)	1363.72s	69.40s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#74 Seed-2.0-Mini

medium

Cost: $0.002
Time: 161.7s
Tokens: 4,379 tok

#75 Qwen3.6 Max Preview

none

Cost: $0.025
Time: 83.9s
Tokens: 4,066 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Mini	6.6	10.0	50.0%	0		74.75s	791	360	9,520
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	696	513	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Mini	5.5	9.8	33.3%	0		220.48s	3,823	464	34,964
Qwen3.6 Max Preview	3.8	7.3	22.2%	1		3.12s	7,913	456	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	16,533	404	29,806
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	14,949	2,842	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Mini	10.0	10.0	100.0%	0		24.27s	8,568	246	2,743
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	7,794	243	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Mini	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	789	18	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Mini	5.1	3.4	33.3%	1		36.65s	585	213	4,210
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	522	76	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	840	69	2,050
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.40s	711	69	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Mini	8.2	7.2	88.9%	1		31.79s	903	527	5,667
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.65s	714	321	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	9,585	222	5,235
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	8,211	222	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Seed-2.0-Mini	3.0	10.0	0.0%	0		56.76s	276	50	1,779
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		1.97s	210	19	0

Comparație rapidă

Schimbă perechea de comparație

Ring-2.6-1TmediumvsQwen3.6 Max Previewnone Kimi K2.5mediumvsQwen3.6 Max Previewnone Claude Sonnet 4.6nonevsSeed-2.0-Minimedium DeepSeek V3.2mediumvsQwen3.6 Max Previewnone Seed-2.0-MinimediumvsStep 3.7 Flashhigh Claude Opus 4.8nonevsSeed-2.0-Minimedium Qwen3.6 Max PreviewnonevsStep 3.7 Flashhigh GPT-5.4 NanomediumvsQwen3.6 Max Previewnone Claude Opus 4.6mediumvsQwen3.6 Max Previewnone MiniMax M3mediumvsQwen3.6 Max Previewnone Mercury 2mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsGrok 4.20medium