Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs xAI: Grok 4.1 Fast

Compare:

Last updated at: 2026-03-06

Metric	OpenAI: GPT-5.4 none Release: 2026-03-05	xAI: Grok 4.1 Fast medium Release: 2025-11-19
Avg Score	4.6	6.4
Rank	#44	#28
Tests Correct
Consistency	8.9	7.8
Cost per result	1.496	0.541
Total Cost	$0.090	$0.049
Attempt pass rate	44.4%	71.1%
Flaky tests	2	4
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Output Tokens	1,635	1,056
Reasoning Tokens	0	80,419
Response Time (avg)	1.46s	27.61s
Response Time (max)	2.89s	121.79s
Response Time (total)	21.86s	220.87s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		5.65s	102	4,021

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
xAI: Grok 4.1 Fast	9.9	10.0	100.0%	0		6.63s	180	5,409

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
xAI: Grok 4.1 Fast	4.0	4.4	66.7%	2		121.79s	11	37,657

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
xAI: Grok 4.1 Fast	5.5	10.0	50.0%	0		5.30s	55	3,489

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
xAI: Grok 4.1 Fast	4.0	7.2	44.4%	1		8.08s	187	6,086

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
xAI: Grok 4.1 Fast	10.0	1.6	33.3%	1		27.71s	260	11,485

Quick Compare

Switch Comparison Pair

Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium MiniMax M2.5mediumvsGPT-5.4none Claude Sonnet 4.6nonevsGrok 4.1 Fastmedium Gemini 3 Flash PreviewnonevsGrok 4.1 Fastmedium Grok 4.1 FastmediumvsGLM 5none Mercury 2mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewnonevsGrok 4.1 Fastmedium GPT-5.3 ChatnonevsGrok 4.1 Fastmedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.1 Fastmedium Gemini 2.5 FlashnonevsGrok 4.1 Fastmedium DeepSeek V3.2nonevsGrok 4.1 Fastmedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium