AI BENCHY Compare

Ling 2.6 1t vs OpenAI: gpt-oss-120b

Last updated at: 2026-04-23

Metric	Ling 2.6 1t Ling 2.6 1t none Release: 2026-04-23 Free Available	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available

Metric	Ling 2.6 1t Ling 2.6 1t none Release: 2026-04-23 Free Available	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available
Score	4.5	5.8
Rank	#105	#73
Consistency	10.0	7.2
Tests Correct
Attempt pass rate	16.7%	51.9%
Flaky tests	0	6
Total Runs	54	54
Cost per result	0.000	0.144
Total Cost	$0.000	$0.011
Input Price	$0.000 / 1M	$0.000 / 1M
Output Price	$0.000 / 1M	$0.000 / 1M
Output Tokens	2,434	13,493
Reasoning Tokens	0	36,879
Response Time (avg)	8.79s	16.08s
Response Time (max)	25.72s	50.92s
Response Time (total)	158.19s	176.88s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Ling 2.6 1t	3.4	10.0	0.0%	0		6.55s	777	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Ling 2.6 1t	5.5	10.0	0.0%	0		10.57s	381	0
gpt-oss-120b	4.3	1.1	66.7%	1		26.33s	228	2,549

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Ling 2.6 1t	3.0	10.0	0.0%	0		23.53s	183	0
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Ling 2.6 1t	10.0	10.0	100.0%	0		1.37s	285	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Ling 2.6 1t	3.0	10.0	0.0%	0		1.04s	27	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Ling 2.6 1t	5.0	10.0	0.0%	0		20.34s	140	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Ling 2.6 1t	6.4	10.0	50.0%	0		5.36s	81	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Ling 2.6 1t	3.1	10.0	0.0%	0		11.76s	131	0
gpt-oss-120b	3.2	4.7	22.2%	2		11.80s	1,508	2,092

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Ling 2.6 1t	3.0	10.0	0.0%	0		25.72s	429	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083

Quick Compare

Switch Comparison Pair

Kimi K2.6nonevsgpt-oss-120bmediumFree Available gpt-oss-120bmediumFree AvailablevsQwen3.5-27Bnone gpt-oss-120bmediumFree AvailablevsMiMo-V2.5-Pronone Ling 2.6 1tnoneFree AvailablevsQwen3.5-9Bmedium gpt-oss-120bmediumFree AvailablevsQwen3.5-122B-A10Bnone Ling 2.6 1tnoneFree AvailablevsGLM 4.7 Flashmedium gpt-oss-120bmediumFree AvailablevsMiMo-V2-Pronone Ling 2.6 1tnoneFree AvailablevsQwen3 Coder Nextmedium gpt-oss-120bmediumFree AvailablevsGLM 4.7 Flashnone gpt-oss-120bmediumFree AvailablevsGLM 5.1none DeepSeek V3.2nonevsgpt-oss-120bmediumFree Available gpt-oss-120bmediumFree AvailablevsQwen3.5-35B-A3Bnone