AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs OpenAI: GPT-5.5

Samenvatting

Benchmarkvergelijking Claude Opus 4.7 vs GPT-5.5: GPT-5.5 leidt in gemiddelde score met 9.0 vs 7.4. Claude Opus 4.7 heeft lagere benchmarkkosten met $0.505 vs $3.679. Claude Opus 4.7 is sneller met 3.02s vs 37.98s, met slagingspercentages van 76.2% vs 87.3%.

Aanbevolen model: Claude Opus 4.7 - Het biedt de beste totale afweging: concurrerende score (7.4), lagere kosten dan GPT-5.5 en evenwichtige responstijd.

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-06-18

Metriek	Claude Opus 4.7 Claude Opus 4.7 none Releasedatum: 2026-04-16	GPT-5.5 GPT-5.5 medium Releasedatum: 2026-04-24

Metriek	Claude Opus 4.7 Claude Opus 4.7 none Releasedatum: 2026-04-16	GPT-5.5 GPT-5.5 medium Releasedatum: 2026-04-24
Score	7.4	9.0
Rang	#49	#9
Betrouwbaarheid	10.0	10.0
Consistentie	9.0	8.9
Correcte tests
Slaagpercentage per poging	76.2%	87.3%
Instabiele tests	0	3
Totaal runs	57	63
Kosten per resultaat	3.154	21.638
Totale kosten	$0.505	$3.679
Invoerprijs	$5.000 / 1M	$5.000 / 1M
Uitvoerprijs	$25.000 / 1M	$30.000 / 1M
Totaal aantal invoer-tokens	69,576	34,212
Uitvoer-tokens	6,265	1,985
Redeneer-tokens	0	114,925
Responstijd (gem.)	3.02s	37.98s
Responstijd (max)	18.27s	332.10s
Responstijd (totaal)	57.44s	797.60s

Generatie-showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#49 Claude Opus 4.7

none

Kosten: $0.051
Tijd: 24.2s
Tokens: 2,181 tok

#9 GPT-5.5

medium

Kosten: $0.112
Tijd: 71.9s
Tokens: 3,807 tok

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.7	8.3	10.0	75.0%	0		2.12s	894	522	0
GPT-5.5	10.0	10.0	100.0%	0		4.66s	606	250	1,335

Programmeren	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.7	3.3	3.3	33.3%	0		2.84s	1,176	494	0
GPT-5.5	8.8	7.8	88.9%	1		59.77s	7,305	362	24,959

Gecombineerd	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.7	9.5	10.0	100.0%	0		18.27s	37,740	3,504	0
GPT-5.5	10.0	10.0	100.0%	0		19.29s	11,019	312	2,841

Gegevensparsering en extractie	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.15s	10,533	324	0
GPT-5.5	10.0	10.0	100.0%	0		4.18s	7,140	234	593

Domeinspecifiek	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.7	7.7	10.0	66.7%	0		1.19s	1,020	78	0
GPT-5.5	5.3	7.2	44.4%	1		164.14s	723	67	79,625

Algemene intelligentie	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		3.47s	723	257	0
GPT-5.5	10.0	10.0	100.0%	0		4.16s	477	138	223

Instructies opvolgen	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		1.46s	939	114	0
GPT-5.5	10.0	10.0	100.0%	0		3.36s	660	93	538

Puzzeloplossing	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.46s	939	597	0
GPT-5.5	10.0	10.0	100.0%	0		6.76s	642	241	2,225

Toolaanroepen	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		4.74s	15,339	372	0
GPT-5.5	10.0	10.0	100.0%	0		10.57s	5,445	258	832

Algemene kennis	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.7	3.0	10.0	0.0%	0		1.46s	273	3	0
GPT-5.5	2.8	1.6	33.3%	1		37.86s	195	30	1,754

Snelle vergelijking

Vergelijkingspaar wisselen

Gemini 3.5 FlashlowvsGPT-5.5medium DeepSeek V4 FlashhighvsGPT-5.5medium Gemini 3.5 FlashhighvsGPT-5.5medium GPT-5.5mediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsGPT-5.5medium Gemini 3 Flash PreviewlowvsGPT-5.5medium Claude Sonnet 4.6nonevsGPT-5.5medium Claude Opus 4.8nonevsGPT-5.5medium DeepSeek V4 PrononevsGPT-5.5medium GPT-5.5mediumvsQwen3.7 Plusnone GPT-5.5mediumvsGLM 5.2none GPT-5.5mediumvsStep 3.7 Flashhigh