Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

Trinity Large Preview vs OpenAI: gpt-oss-120b

Compare:

Last updated at: 2026-03-06

Metric	Trinity Large Preview none Release: 2026-01-27 Free Available	OpenAI: gpt-oss-120b medium Release: 2025-08-05 Free Available
Rank	#45	#39
Avg Score	4.2	5.1
Consistency	9.6	7.4
Cost per result	0.000	0.135
Total Cost	$0.000	$0.010
Tests Correct
Attempt pass rate	33.3%	54.2%
Flaky tests	1	5
Total Runs	48	48
Output Tokens	1,837	13,210
Reasoning Tokens	0	34,230
Response Time (avg)	3.15s	16.65s
Response Time (max)	8.91s	50.92s
Response Time (total)	50.46s	149.88s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
OpenAI: gpt-oss-120b	7.0	9.8	66.7%	0		19.76s	3,463	2,077

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
OpenAI: gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
OpenAI: gpt-oss-120b	5.5	5.9	66.7%	1		1.98s	241	1,114

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
OpenAI: gpt-oss-120b	10.0	4.4	22.2%	2		50.92s	6,784	20,606

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
OpenAI: gpt-oss-120b	3.0	10.0	0.0%	0		7.90s	107	387

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
OpenAI: gpt-oss-120b	9.5	10.0	100.0%	0		7.63s	126	1,799

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
OpenAI: gpt-oss-120b	1.7	4.7	22.2%	2		11.80s	1,508	2,092

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
OpenAI: gpt-oss-120b	9.0	10.0	100.0%	0		6.91s	287	1,083

Quick Compare

Switch Comparison Pair

gpt-oss-120bmediumFree AvailablevsQwen3.5-122B-A10Bnone Gemini 2.5 Flashnonevsgpt-oss-120bmediumFree Available gpt-oss-120bmediumFree AvailablevsQwen3.5-Flashnone gpt-oss-120bmediumFree AvailablevsQwen3.5-27Bnone gpt-oss-120bmediumFree AvailablevsQwen3.5-35B-A3Bnone DeepSeek V3.2nonevsgpt-oss-120bmediumFree Available Trinity Large PreviewnoneFree AvailablevsMiniMax M2.5medium Trinity Large PreviewnoneFree AvailablevsQwen3 Coder Nextmedium gpt-oss-120bmediumFree AvailablevsGLM 5none Kimi K2.5nonevsgpt-oss-120bmediumFree Available Trinity Large PreviewnoneFree AvailablevsMercury 2medium gpt-oss-120bmediumFree AvailablevsQwen3 Coder Nextnone