AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs OpenAI: GPT-5.3 Chat

Last updated at: 2026-06-02

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	GPT-5.3 Chat GPT-5.3 Chat none Release: 2026-03-03

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	GPT-5.3 Chat GPT-5.3 Chat none Release: 2026-03-03
Score	7.6	7.4
Rank	#52	#57
Reliability	10.0	10.0
Consistency	9.2	8.4
Tests Correct
Attempt pass rate	68.3%	68.3%
Flaky tests	2	4
Total Runs	60	60
Cost per result	10.229	3.350
Total Cost	$1.330	$0.402
Input Price	$3.000 / 1M	$1.750 / 1M
Output Price	$15.000 / 1M	$14.000 / 1M
Total Input Tokens	45,947	31,590
Output Tokens	49,891	24,757
Reasoning Tokens	29,565	0
Response Time (avg)	15.81s	6.13s
Response Time (max)	46.35s	18.33s
Response Time (total)	189.71s	122.61s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	789	1,046	1,093
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.9	6.0	66.7%	1		33.87s	3,830	11,277	3,281
GPT-5.3 Chat	6.9	6.2	66.7%	1		10.52s	4,683	4,772	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	18,351	5,871	3,962
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	11,019	2,614	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	8,676	649	742
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	471	25,790	16,919
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	564	256	433
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	792	318	552
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		5.31s	816	592	646
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	11,454	655	351
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	204	3,437	1,586
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0

Quick Compare

Switch Comparison Pair

GPT-5.3 ChatnonevsMiMo-V2.5medium GPT-5.3 ChatnonevsGLM 5.1medium Gemini 3.1 Flash LitelowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsStep 3.7 Flashlow Kimi K2.6mediumFree AvailablevsGPT-5.3 Chatnone GPT-5.3 ChatnonevsStep 3.5 Flashmedium GPT-5.3 ChatnonevsGLM 5V Turbomedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsDeepSeek V4 Flashhigh Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone MiniMax M3mediumvsGPT-5.3 Chatnone