AI BENCHY Compare

OpenAI: GPT-4o-mini vs Laguna M.1

Last updated at: 2026-04-29

Metric	GPT-4o-mini GPT-4o-mini none Release: 2024-07-18	Laguna M.1 Laguna M.1 medium Release: 2026-04-28 Free Available

Metric	GPT-4o-mini GPT-4o-mini none Release: 2024-07-18	Laguna M.1 Laguna M.1 medium Release: 2026-04-28 Free Available
Score	4.9	6.3
Rank	#119	#74
Reliability	N/A	10.0
Consistency	9.9	8.6
Tests Correct
Attempt pass rate	22.2%	53.7%
Flaky tests	0	3
Total Runs	54	54
Cost per result	0.122	0.000
Total Cost	$0.005	$0.000
Input Price	$0.150 / 1M	$0.000 / 1M
Output Price	$0.600 / 1M	$0.000 / 1M
Output Tokens	1,947	63,822
Reasoning Tokens	0	0
Response Time (avg)	2.00s	13.90s
Response Time (max)	7.58s	53.14s
Response Time (total)	21.99s	250.28s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-4o-mini	4.8	10.0	25.0%	0		1.34s	186	0
Laguna M.1	6.6	10.0	50.0%	0		9.15s	7,839	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-4o-mini	3.0	8.7	0.0%	0		2.55s	347	0
Laguna M.1	4.3	1.1	66.7%	1		35.61s	14,327	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-4o-mini	3.0	10.0	0.0%	0		7.58s	568	0
Laguna M.1	3.0	10.0	0.0%	0		53.14s	12,272	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-4o-mini	10.0	10.0	100.0%	0		1.27s	183	0
Laguna M.1	10.0	10.0	100.0%	0		4.93s	2,296	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-4o-mini	3.0	10.0	0.0%	0		637ms	15	0
Laguna M.1	5.3	7.2	44.4%	1		24.14s	19,020	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-4o-mini	4.0	10.0	0.0%	0		909ms	66	0
Laguna M.1	4.1	10.0	0.0%	0		6.86s	1,294	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-4o-mini	4.8	10.0	0.0%	0		1.27s	69	0
Laguna M.1	10.0	10.0	100.0%	0		4.30s	1,626	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-4o-mini	3.7	10.0	0.0%	0		1.30s	308	0
Laguna M.1	3.6	7.2	22.2%	1		6.97s	3,978	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	205	0
Laguna M.1	10.0	10.0	100.0%	0		6.31s	1,170	0

Quick Compare

Switch Comparison Pair

Laguna M.1mediumFree AvailablevsMiMo-V2-Omninone Laguna M.1mediumFree AvailablevsGLM 5V Turbonone Laguna M.1mediumFree AvailablevsQwen3.5-Flashnone GPT-4o-mininonevsQwen3 Coder Nextmedium Gemma 4 26B A4BnoneFree AvailablevsLaguna M.1mediumFree Available Seed-2.0-LitenonevsLaguna M.1mediumFree Available Gemini 2.5 FlashnonevsLaguna M.1mediumFree Available Laguna M.1mediumFree AvailablevsQwen3.5-35B-A3Bnone GPT-4o-mininonevsGLM 4.7 Flashmedium Laguna M.1mediumFree AvailablevsQwen3.6 27Bnone Laguna M.1mediumFree AvailablevsGLM 5none DeepSeek V4 PrononevsLaguna M.1mediumFree Available