AI BENCHY Compare

OpenAI: gpt-oss-120b vs Laguna Xs.2

Last updated at: 2026-04-29

Metric	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available	Laguna Xs.2 Laguna Xs.2 none Release: 2026-04-28 Free Available

Metric	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available	Laguna Xs.2 Laguna Xs.2 none Release: 2026-04-28 Free Available
Score	5.8	5.0
Rank	#88	#118
Reliability	N/A	9.9
Consistency	7.2	10.0
Tests Correct
Attempt pass rate	51.9%	27.8%
Flaky tests	6	0
Total Runs	54	54
Cost per result	0.144	0.000
Total Cost	$0.011	$0.000
Input Price	$0.000 / 1M	$0.000 / 1M
Output Price	$0.000 / 1M	$0.000 / 1M
Output Tokens	13,493	3,824
Reasoning Tokens	36,879	0
Response Time (avg)	16.08s	1.68s
Response Time (max)	50.92s	16.04s
Response Time (total)	176.88s	30.26s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177
Laguna Xs.2	3.2	10.0	0.0%	0		743ms	933	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.3	1.1	66.7%	1		26.33s	228	2,549
Laguna Xs.2	2.5	10.0	0.0%	0		1.96s	866	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072
Laguna Xs.2	3.0	10.0	0.0%	0		2.01s	521	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114
Laguna Xs.2	10.0	10.0	100.0%	0		646ms	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606
Laguna Xs.2	5.3	10.0	33.3%	0		371ms	33	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387
Laguna Xs.2	5.0	10.0	0.0%	0		16.04s	200	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799
Laguna Xs.2	6.5	10.0	50.0%	0		439ms	81	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.2	4.7	22.2%	2		11.80s	1,508	2,092
Laguna Xs.2	5.4	10.0	33.3%	0		688ms	552	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083
Laguna Xs.2	3.0	10.0	0.0%	0		1.93s	392	0

Quick Compare

Switch Comparison Pair

Kimi K2.6nonevsgpt-oss-120bmediumFree Available gpt-oss-120bmediumFree AvailablevsQwen3.5-27Bnone gpt-oss-120bmediumFree AvailablevsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumFree AvailablevsMiMo-V2.5-Pronone gpt-oss-120bmediumFree AvailablevsQwen3.6 Flashnone gpt-oss-120bmediumFree AvailablevsQwen3.5-122B-A10Bnone gpt-oss-120bmediumFree AvailablevsMiMo-V2-Pronone DeepSeek V3.2nonevsgpt-oss-120bmediumFree Available Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree AvailablevsLaguna Xs.2noneFree Available gpt-oss-120bmediumFree AvailablevsQwen3.6 27Bnone Elephant AlphamediumvsLaguna Xs.2noneFree Available MiniMax M2.7mediumvsLaguna Xs.2noneFree Available