AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.2

Samenvatting

Benchmarkvergelijking Claude Opus 4.8 vs GPT-5.2: GPT-5.2 leidt in gemiddelde score met 8.4 vs 7.7. GPT-5.2 heeft lagere benchmarkkosten met $0.548 vs $1.270. Claude Opus 4.8 is sneller met 10.83s vs 16.88s, met slagingspercentages van 79.4% vs 71.4%.

Aanbevolen model: GPT-5.2 - Het heeft hier de beste score (8.4) en kost ongeveer 2.3x minder dan Claude Opus 4.8.

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-07-02

Metriek	Claude Opus 4.8 Claude Opus 4.8 low Releasedatum: 2026-05-28	GPT-5.2 GPT-5.2 medium Releasedatum: 2025-12-11

Metriek	Claude Opus 4.8 Claude Opus 4.8 low Releasedatum: 2026-05-28	GPT-5.2 GPT-5.2 medium Releasedatum: 2025-12-11
Score	7.7	8.4
Rang	#38	#22
Betrouwbaarheid	10.0	10.0
Consistentie	8.8	8.4
Correcte tests
Slaagpercentage per poging	79.4%	71.4%
Instabiele tests	3	4
Totaal runs	63	63
Kosten per resultaat	8.466	4.209
Totale kosten	$1.270	$0.548
Invoerprijs	$5.000 / 1M	$1.750 / 1M
Uitvoerprijs	$25.000 / 1M	$14.000 / 1M
Totaal aantal invoer-tokens	60,946	33,967
Uitvoer-tokens	31,771	2,901
Redeneer-tokens	6,831	31,932
Responstijd (gem.)	10.83s	16.88s
Responstijd (max)	127.97s	77.80s
Responstijd (totaal)	227.39s	236.34s

Generatie-showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

Kosten: $0.031
Tijd: 14.1s
Tokens: 1,345 tok

#22 GPT-5.2

medium

Kosten: $0.047
Tijd: 49.2s
Tokens: 3,396 tok

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371
GPT-5.2	6.5	8.0	58.3%	1		7.81s	606	567	2,002

Programmeren	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809
GPT-5.2	10.0	10.0	100.0%	0		22.73s	7,302	511	11,912

Gecombineerd	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081
GPT-5.2	10.0	10.0	100.0%	0		14.06s	11,019	291	1,757

Gegevensparsering en extractie	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0
GPT-5.2	10.0	10.0	100.0%	0		3.15s	7,140	234	420

Domeinspecifiek	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908
GPT-5.2	5.9	7.2	55.6%	1		77.80s	473	42	10,342

Algemene intelligentie	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0
GPT-5.2	3.7	9.7	0.0%	0		4.32s	477	162	269

Instructies opvolgen	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221
GPT-5.2	9.9	10.0	100.0%	0		3.12s	660	94	614

Puzzeloplossing	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184
GPT-5.2	7.5	7.3	77.8%	1		5.80s	642	735	924

Toolaanroepen	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35
GPT-5.2	4.7	1.6	66.7%	1		10.30s	5,453	239	469

Algemene kennis	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Invoer-tokens	Uitvoer-tokens	Redeneer-tokens
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222
GPT-5.2	3.0	10.0	0.0%	0		28.18s	195	26	3,223

Snelle vergelijking

Vergelijkingspaar wisselen