Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs OpenAI: GPT-5.2 Chat

Compare:

Last updated at: 2026-03-06

Metric	ByteDance Seed: Seed-2.0-Mini medium Release: 2026-02-14	OpenAI: GPT-5.2 Chat none Release: 2025-12-11
Rank	#23	#15
Avg Score	6.9	7.4
Consistency	9.1	9.1
Cost per result	0.280	2.440
Total Cost	$0.028	$0.269
Tests Correct
Attempt pass rate	68.8%	75.0%
Flaky tests	2	2
Total Runs	48 (16 x 3)	48 (16 x 3)
Output Tokens	1,965	15,845
Reasoning Tokens	58,456	0
Response Time (avg)	65.09s	7.03s
Response Time (max)	262.83s	38.52s
Response Time (total)	846.14s	112.51s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	7.0	10.0	66.7%	0		98.99s	354	9,352
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		3.97s	1,651	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	1,243	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	9.9	10.0	100.0%	0		24.27s	246	2,743
OpenAI: GPT-5.2 Chat	9.9	10.0	100.0%	0		3.05s	980	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	0.0%	0		0ms	0	0
OpenAI: GPT-5.2 Chat	4.0	10.0	33.3%	0		17.78s	7,810	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	6.0	3.4	33.3%	1		36.65s	213	4,210
OpenAI: GPT-5.2 Chat	4.0	3.0	33.3%	1		3.20s	335	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
OpenAI: GPT-5.2 Chat	6.0	6.1	83.3%	1		5.46s	1,528	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	7.0	7.2	88.9%	1		25.85s	457	5,060
OpenAI: GPT-5.2 Chat	7.0	10.0	66.7%	0		4.42s	1,743	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	555	0

Quick Compare

Switch Comparison Pair

GPT-5.2 ChatnonevsGLM 5medium Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone Claude Sonnet 4.6nonevsSeed-2.0-Minimedium DeepSeek V3.2mediumvsGPT-5.2 Chatnone Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone GPT-5.2 ChatnonevsMiMo-V2-Flashmedium Seed-2.0-MinimediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.5-122B-A10Bmedium