AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Google: Gemma 4 31B

Last updated at: 2026-04-16

Metric	Claude Opus 4.7 Claude Opus 4.7 medium Release: 2026-04-16	Gemma 4 31B Gemma 4 31B medium Release: 2026-04-02 Free Available

Metric	Claude Opus 4.7 Claude Opus 4.7 medium Release: 2026-04-16	Gemma 4 31B Gemma 4 31B medium Release: 2026-04-02 Free Available
Score	9.2	8.3
Rank	#3	#14
Consistency	10.0	9.2
Tests Correct
Attempt pass rate	88.9%	79.6%
Flaky tests	0	2
Total Runs	54	54
Cost per result	2.790	0.136
Total Cost	$0.447	$0.018
Input Price	$5.000 / 1M	$0.130 / 1M
Output Price	$25.000 / 1M	$0.380 / 1M
Output Tokens	5,375	12,734
Reasoning Tokens	1,341	27,950
Response Time (avg)	3.53s	24.88s
Response Time (max)	21.45s	70.97s
Response Time (total)	60.03s	398.13s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	348	0
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	962	2,046

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		6.41s	1,141	257
Gemma 4 31B	4.7	1.6	66.7%	1		70.97s	3,166	5,449

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	2,369	1,084
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	324	0
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	1,822	2,951

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	51	0
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	4,349	8,985

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	256	0
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	105	888

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	114	0
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	533	2,035

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.51s	399	0
Gemma 4 31B	8.8	7.9	88.9%	1		27.63s	1,797	5,596

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	373	0
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0

Quick Compare

Switch Comparison Pair

Claude Opus 4.7mediumvsGemini 3 Flash Previewlow Gemma 4 31BmediumFree AvailablevsGPT-5.2 Chatnone Gemma 4 31BmediumFree AvailablevsGPT-5.3 Chatnone Claude Opus 4.7nonevsGemma 4 31BmediumFree Available Claude Sonnet 4.6nonevsGemma 4 31BmediumFree Available Claude Opus 4.7mediumvsGemini 3 Flash Previewnone Claude Opus 4.7mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.7mediumvsGPT-5.2 Chatnone Claude Opus 4.7mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.7mediumvsGPT-5.3 Chatnone Gemma 4 31BmediumFree AvailablevsQwen3.5 Plus 2026-02-15none Gemma 4 31BmediumFree AvailablevsGLM 5none