AI BENCHY Compare

OpenAI: GPT-5.4 Nano vs Laguna Xs.2

Last updated at: 2026-05-01

Metric	GPT-5.4 Nano GPT-5.4 Nano none Release: 2026-03-17	Laguna Xs.2 Laguna Xs.2 none Release: 2026-04-28 Free Available

Metric	GPT-5.4 Nano GPT-5.4 Nano none Release: 2026-03-17	Laguna Xs.2 Laguna Xs.2 none Release: 2026-04-28 Free Available
Score	4.6	5.0
Rank	#127	#122
Reliability	N/A	9.9
Consistency	7.4	10.0
Tests Correct
Attempt pass rate	33.3%	27.8%
Flaky tests	6	0
Total Runs	54	54
Cost per result	0.299	0.000
Total Cost	$0.009	$0.000
Input Price	$0.200 / 1M	$0.000 / 1M
Output Price	$1.250 / 1M	$0.000 / 1M
Output Tokens	2,762	3,824
Reasoning Tokens	0	0
Response Time (avg)	1.40s	1.68s
Response Time (max)	3.84s	16.04s
Response Time (total)	25.14s	30.26s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.5	8.0	16.7%	1		1.18s	800	0
Laguna Xs.2	3.2	10.0	0.0%	0		743ms	933	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	7.1	3.7	66.7%	1		1.43s	577	0
Laguna Xs.2	2.5	10.0	0.0%	0		1.96s	866	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.0	10.0	0.0%	0		3.84s	280	0
Laguna Xs.2	3.0	10.0	0.0%	0		2.01s	521	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	6.5	10.0	50.0%	0		1.11s	219	0
Laguna Xs.2	10.0	10.0	100.0%	0		646ms	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	2.9	4.4	22.2%	2		926ms	52	0
Laguna Xs.2	5.3	10.0	33.3%	0		371ms	33	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.8	2.5	33.3%	1		1.31s	180	0
Laguna Xs.2	5.0	10.0	0.0%	0		16.04s	200	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	6.3	10.0	50.0%	0		787ms	84	0
Laguna Xs.2	6.5	10.0	50.0%	0		439ms	81	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.7	7.3	22.2%	1		1.29s	348	0
Laguna Xs.2	5.4	10.0	33.3%	0		688ms	552	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	10.0	10.0	100.0%	0		3.40s	222	0
Laguna Xs.2	3.0	10.0	0.0%	0		1.93s	392	0

Quick Compare

Switch Comparison Pair

GPT-5.4 NanononevsGLM 4.7 Flashmedium Laguna Xs.2noneFree AvailablevsQwen3 Coder Nextmedium Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree AvailablevsLaguna Xs.2noneFree Available Elephant AlphamediumvsLaguna Xs.2noneFree Available MiniMax M2.7mediumvsLaguna Xs.2noneFree Available GPT-5.4 NanononevsQwen3.5-9Bmedium GPT-5.4 NanononevsQwen3 Coder Nextmedium Laguna Xs.2noneFree AvailablevsGLM 4.7 Flashmedium Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree AvailablevsGPT-5.4 Nanonone MiniMax M2.5mediumFree AvailablevsLaguna Xs.2noneFree Available Mistral Small 4mediumvsLaguna Xs.2noneFree Available GPT-5.4 NanononevsElephant Alphamedium