Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs OpenAI: GPT-5.3 Chat

Compare:

Last updated at: 2026-03-06

Metric	ByteDance Seed: Seed-2.0-Mini medium Release: 2026-02-14	OpenAI: GPT-5.3 Chat none Release: 2026-03-03
Avg Score	7.0	7.5
Rank	#23	#19
Tests Correct
Consistency	9.4	8.4
Cost per result	0.261	3.110
Total Cost	$0.027	$0.311
Attempt pass rate	71.1%	75.6%
Flaky tests	1	3
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Output Tokens	1,752	18,953
Reasoning Tokens	54,246	0
Response Time (avg)	67.46s	6.22s
Response Time (max)	262.83s	18.33s
Response Time (total)	809.49s	93.31s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	7.0	10.0	66.7%	0		98.99s	354	9,352
OpenAI: GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	9.9	10.0	100.0%	0		24.27s	246	2,743
OpenAI: GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	0.0%	0		0ms	0	0
OpenAI: GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
OpenAI: GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	7.0	7.2	88.9%	1		25.85s	457	5,060
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0

Quick Compare

Switch Comparison Pair

GPT-5.3 ChatnonevsGLM 5medium Seed-2.0-MinimediumvsGemini 3 Flash Previewnone GPT-5.3 ChatnonevsMiMo-V2-Flashmedium GPT-5.3 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone DeepSeek V3.2mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone GPT-5.3 ChatnonevsQwen3.5-Flashmedium