NVIDIA: Nemotron 3 Ultra vs OpenAI: GPT-5.5

GPT-5.5 (low) leads on average score with 9.3 vs 7.5. Nemotron 3 Ultra (medium) has the lower benchmark cost at $0.774 vs $1.253. GPT-5.5 (low) is faster at 10.13s vs 32.21s, with pass rates of 68.2% vs 86.4%.

Recommended modelGPT-5.5 (low)It has the best score here (9.3), while responding about 3.2x faster than Nemotron 3 Ultra (medium).

Last updated at: 2026-07-25

Metric	Nemotron 3 Ultra Nemotron 3 Ultra medium Release: 2026-06-04 Free Available	GPT-5.5 GPT-5.5 low Release: 2026-04-24

Metric	Nemotron 3 Ultra Nemotron 3 Ultra medium Release: 2026-06-04 Free Available	GPT-5.5 GPT-5.5 low Release: 2026-04-24
Score	7.5	9.3
Rank	#58	#9
Reliability	9.8	10.0
Consistency	8.5	10.0
Tests Correct
Attempt pass rate	68.2%	86.4%
Flaky tests	4	0
Total Runs	66	66
Cost per result	0.000	6.594
Total Cost	$0.774	$1.253
Input Price	$0.600 / 1M	$5.000 / 1M
Output Price	$3.600 / 1M	$30.000 / 1M
Total Input Tokens	233,488	80,058
Output Tokens	57,916	5,378
Reasoning Tokens	128,062	23,040
Response Time (avg)	32.21s	10.13s
Response Time (max)	392.56s	56.19s
Response Time (total)	708.65s	222.82s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#58 Nemotron 3 Ultra

medium

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

#9 GPT-5.5

low

Cost: $0.068
Time: 37.0s
Tokens: 2,339 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Nemotron 3 Ultra	10.0	10.0	100.0%	0		8.62s	780	835	1,485
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Nemotron 3 Ultra	8.4	7.4	88.9%	1		26.53s	7,686	2,854	17,725
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Nemotron 3 Ultra	6.3	5.8	66.7%	1		218.25s	204,249	40,954	78,561
GPT-5.5	10.0	10.0	100.0%	0		13.73s	56,868	3,635	1,297

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Nemotron 3 Ultra	10.0	10.0	100.0%	0		5.68s	7,989	473	1,285
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Nemotron 3 Ultra	3.5	4.4	33.3%	2		24.90s	858	11,169	16,249
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Nemotron 3 Ultra	3.7	9.5	0.0%	0		2.52s	360	70	235
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Nemotron 3 Ultra	9.8	10.0	100.0%	0		6.35s	765	182	1,243
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Nemotron 3 Ultra	5.5	9.9	33.3%	0		3.54s	792	771	2,055
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Nemotron 3 Ultra	10.0	10.0	100.0%	0		7.72s	9,781	304	984
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Nemotron 3 Ultra	3.0	10.0	0.0%	0		38.47s	228	304	8,240
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840

Quick Compare

Switch Comparison Pair