AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Laguna Xs.2

Last updated at: 2026-05-01

Metric	GPT-5.4 Mini GPT-5.4 Mini none Release: 2026-03-17	Laguna Xs.2 Laguna Xs.2 medium Release: 2026-04-28 Free Available

Metric	GPT-5.4 Mini GPT-5.4 Mini none Release: 2026-03-17	Laguna Xs.2 Laguna Xs.2 medium Release: 2026-04-28 Free Available
Score	5.1	6.2
Rank	#117	#81
Reliability	N/A	10.0
Consistency	8.6	6.9
Tests Correct
Attempt pass rate	35.2%	57.4%
Flaky tests	3	7
Total Runs	54	54
Cost per result	0.630	0.000
Total Cost	$0.032	$0.000
Input Price	$0.750 / 1M	$0.000 / 1M
Output Price	$4.500 / 1M	$0.000 / 1M
Output Tokens	2,418	58,141
Reasoning Tokens	0	0
Response Time (avg)	1.17s	6.03s
Response Time (max)	2.52s	29.11s
Response Time (total)	21.01s	108.59s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	654	0
Laguna Xs.2	7.4	5.9	83.3%	2		2.60s	5,283	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.19s	333	0
Laguna Xs.2	6.3	3.7	33.3%	1		14.36s	7,896	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	298	0
Laguna Xs.2	3.0	10.0	0.0%	0		15.92s	8,501	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	222	0
Laguna Xs.2	7.1	5.6	83.3%	1		9.34s	10,472	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	88	0
Laguna Xs.2	4.1	4.4	44.5%	2		11.12s	18,712	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	174	0
Laguna Xs.2	4.1	10.0	0.0%	0		2.76s	1,421	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	101	0
Laguna Xs.2	10.0	10.0	100.0%	0		1.68s	1,517	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	5.4	10.0	33.3%	0		860ms	293	0
Laguna Xs.2	5.3	10.0	33.3%	0		2.12s	3,168	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	255	0
Laguna Xs.2	4.7	1.6	66.7%	1		3.39s	1,171	0

Quick Compare

Switch Comparison Pair

Seed-2.0-LitenonevsLaguna Xs.2mediumFree Available Laguna Xs.2mediumFree AvailablevsQwen3.5-35B-A3Bnone Laguna Xs.2mediumFree AvailablevsQwen3.5-Flashnone Laguna Xs.2mediumFree AvailablevsGLM 5V Turbonone DeepSeek V4 PrononevsLaguna Xs.2mediumFree Available Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree AvailablevsGPT-5.4 Mininone GPT-5.4 MininonevsElephant Alphamedium Laguna Xs.2mediumFree AvailablevsQwen3.6 27Bnone MiniMax M2.7mediumvsGPT-5.4 Mininone Laguna Xs.2mediumFree AvailablevsQwen3.5-27Bnone DeepSeek V3.2nonevsLaguna Xs.2mediumFree Available Laguna Xs.2mediumFree AvailablevsMiMo-V2-Pronone