AI BENCHY Compare

OpenAI: gpt-oss-120b vs Laguna Xs.2

Last updated at: 2026-04-29

Metric	gpt-oss-120b gpt-oss-120b none Release: 2025-08-05 Free Available	Laguna Xs.2 Laguna Xs.2 none Release: 2026-04-28 Free Available

Metric	gpt-oss-120b gpt-oss-120b none Release: 2025-08-05 Free Available	Laguna Xs.2 Laguna Xs.2 none Release: 2026-04-28 Free Available
Score	5.2	5.0
Rank	#110	#118
Reliability	N/A	9.9
Consistency	7.9	10.0
Tests Correct
Attempt pass rate	38.9%	27.8%
Flaky tests	5	0
Total Runs	54	54
Cost per result	0.221	0.000
Total Cost	$0.009	$0.000
Input Price	$0.000 / 1M	$0.000 / 1M
Output Price	$0.000 / 1M	$0.000 / 1M
Output Tokens	44,652	3,824
Reasoning Tokens	0	0
Response Time (avg)	11.96s	1.68s
Response Time (max)	68.97s	16.04s
Response Time (total)	179.34s	30.26s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	6.6	8.0	58.3%	1		6.03s	4,867	0
Laguna Xs.2	3.2	10.0	0.0%	0		743ms	933	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0
Laguna Xs.2	2.5	10.0	0.0%	0		1.96s	866	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
Laguna Xs.2	3.0	10.0	0.0%	0		2.01s	521	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0
Laguna Xs.2	10.0	10.0	100.0%	0		646ms	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0
Laguna Xs.2	5.3	10.0	33.3%	0		371ms	33	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.6	10.0	0.0%	0		2.83s	586	0
Laguna Xs.2	5.0	10.0	0.0%	0		16.04s	200	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	8.4	6.9	83.3%	1		5.10s	1,982	0
Laguna Xs.2	6.5	10.0	50.0%	0		439ms	81	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.5	4.8	44.5%	2		6.86s	3,904	0
Laguna Xs.2	5.4	10.0	33.3%	0		688ms	552	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
Laguna Xs.2	3.0	10.0	0.0%	0		1.93s	392	0

Quick Compare

Switch Comparison Pair

Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree Availablevsgpt-oss-120bnoneFree Available gpt-oss-120bnoneFree AvailablevsElephant Alphamedium MiniMax M2.7mediumvsgpt-oss-120bnoneFree Available Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree AvailablevsLaguna Xs.2noneFree Available Elephant AlphamediumvsLaguna Xs.2noneFree Available MiniMax M2.7mediumvsLaguna Xs.2noneFree Available Laguna Xs.2noneFree AvailablevsQwen3 Coder Nextmedium Laguna Xs.2noneFree AvailablevsGLM 4.7 Flashmedium Mistral Small 4mediumvsgpt-oss-120bnoneFree Available gpt-oss-120bnoneFree AvailablevsQwen3 Coder Nextmedium MiniMax M2.5mediumFree Availablevsgpt-oss-120bnoneFree Available gpt-oss-120bnoneFree AvailablevsGLM 4.7 Flashmedium