Benchmarkvergelijking Claude Opus 4.7 vs GPT-5.5: GPT-5.5 leidt in gemiddelde score met 9.0 vs 7.4. Claude Opus 4.7 heeft lagere benchmarkkosten met $0.505 vs $3.679. Claude Opus 4.7 is sneller met 3.02s vs 37.98s, met slagingspercentages van 76.2% vs 87.3%.
Aanbevolen model: Claude Opus 4.7 - Het biedt de beste totale afweging: concurrerende score (7.4), lagere kosten dan GPT-5.5 en evenwichtige responstijd.
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-06-18
Metriek
Claude Opus 4.7Claude Opus 4.7noneGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.Releasedatum: 2026-04-16
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
Consistentie
9.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
8.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)3.02sResponstijd (max)18.27sResponstijd (totaal)57.44sEen test is alleen volledig geslaagd als alle runs slagen.…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)37.98sResponstijd (max)332.10sResponstijd (totaal)797.60sEen test is alleen volledig geslaagd als alle runs slagen.…
Slaagpercentage per poging
76.2%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
87.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
Instabiele tests
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
3Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Totaal runs
57Totaal runs…
63Totaal runs…
Kosten per resultaat
3.154Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
21.638Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
Totale kosten
$0.505Totale kosten (huidige prijs)…
$3.679Totale kosten (huidige prijs)…
Invoerprijs
$5.000 / 1MInvoerprijs…
$5.000 / 1MInvoerprijs…
Uitvoerprijs
$25.000 / 1MUitvoerprijs…
$30.000 / 1MUitvoerprijs…
Totaal aantal invoer-tokens
69,576Totaal aantal invoer-tokens…
34,212Totaal aantal invoer-tokens…
Uitvoer-tokens
6,265Uitvoer-tokens…
1,985Uitvoer-tokens…
Redeneer-tokens
0Redeneer-tokens…
114,925Redeneer-tokens…
Responstijd (gem.)
3.02sResponstijd (gem.)…
37.98sResponstijd (gem.)…
Responstijd (max)
18.27sResponstijd (max)…
332.10sResponstijd (max)…
Responstijd (totaal)
57.44sResponstijd (totaal)…
797.60sResponstijd (totaal)…
Generatie-showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#49 Claude Opus 4.7
none
Kosten
$0.051
Tijd
24.2s
Tokens
2,181 tok
#9 GPT-5.5
medium
Kosten
$0.112
Tijd
71.9s
Tokens
3,807 tok
Score
-
Kosten
-
Tijd
-
Tokens
-
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Score vs Responstijd (gem.)
Totaal aantal uitvoer-tokens
Score vs Totaal aantal uitvoer-tokens
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Claude Opus 4.7Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.3Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
75.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.12sResponstijd (max)3.75sResponstijd (totaal)8.50sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.66sResponstijd (max)6.74sResponstijd (totaal)18.65sEen test is alleen volledig geslaagd als alle runs slagen.…
4.66sResponstijd (gem.)…
606Totaal aantal invoer-tokens…
250Uitvoer-tokens…
1,335Redeneer-tokens…
Programmeren
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Claude Opus 4.7Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.3Gemiddelde score over alle benchmarktests.…
3.3Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.84sResponstijd (max)2.84sResponstijd (totaal)2.84sEen test is alleen volledig geslaagd als alle runs slagen.…
7.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)59.77sResponstijd (max)130.26sResponstijd (totaal)179.30sEen test is alleen volledig geslaagd als alle runs slagen.…
59.77sResponstijd (gem.)…
7,305Totaal aantal invoer-tokens…
362Uitvoer-tokens…
24,959Redeneer-tokens…
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Claude Opus 4.7Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
9.5Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.27sResponstijd (max)18.27sResponstijd (totaal)18.27sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)19.29sResponstijd (max)19.29sResponstijd (totaal)19.29sEen test is alleen volledig geslaagd als alle runs slagen.…
19.29sResponstijd (gem.)…
11,019Totaal aantal invoer-tokens…
312Uitvoer-tokens…
2,841Redeneer-tokens…
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Claude Opus 4.7Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.15sResponstijd (max)2.33sResponstijd (totaal)4.29sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.18sResponstijd (max)4.35sResponstijd (totaal)8.36sEen test is alleen volledig geslaagd als alle runs slagen.…
4.18sResponstijd (gem.)…
7,140Totaal aantal invoer-tokens…
234Uitvoer-tokens…
593Redeneer-tokens…
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Claude Opus 4.7Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
7.7Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.19sResponstijd (max)1.40sResponstijd (totaal)3.58sEen test is alleen volledig geslaagd als alle runs slagen.…
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)164.14sResponstijd (max)332.10sResponstijd (totaal)492.41sEen test is alleen volledig geslaagd als alle runs slagen.…
164.14sResponstijd (gem.)…
723Totaal aantal invoer-tokens…
67Uitvoer-tokens…
79,625Redeneer-tokens…
Algemene intelligentie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Claude Opus 4.7Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.47sResponstijd (max)3.47sResponstijd (totaal)3.47sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.16sResponstijd (max)4.16sResponstijd (totaal)4.16sEen test is alleen volledig geslaagd als alle runs slagen.…
4.16sResponstijd (gem.)…
477Totaal aantal invoer-tokens…
138Uitvoer-tokens…
223Redeneer-tokens…
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Claude Opus 4.7Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.46sResponstijd (max)1.68sResponstijd (totaal)2.91sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.36sResponstijd (max)3.46sResponstijd (totaal)6.73sEen test is alleen volledig geslaagd als alle runs slagen.…
3.36sResponstijd (gem.)…
660Totaal aantal invoer-tokens…
93Uitvoer-tokens…
538Redeneer-tokens…
Puzzeloplossing
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Claude Opus 4.7Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.46sResponstijd (max)3.72sResponstijd (totaal)7.38sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.76sResponstijd (max)10.54sResponstijd (totaal)20.28sEen test is alleen volledig geslaagd als alle runs slagen.…
6.76sResponstijd (gem.)…
642Totaal aantal invoer-tokens…
241Uitvoer-tokens…
2,225Redeneer-tokens…
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Claude Opus 4.7Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.74sResponstijd (max)4.74sResponstijd (totaal)4.74sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.57sResponstijd (max)10.57sResponstijd (totaal)10.57sEen test is alleen volledig geslaagd als alle runs slagen.…
10.57sResponstijd (gem.)…
5,445Totaal aantal invoer-tokens…
258Uitvoer-tokens…
832Redeneer-tokens…
Algemene kennis
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Claude Opus 4.7Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.46sResponstijd (max)1.46sResponstijd (totaal)1.46sEen test is alleen volledig geslaagd als alle runs slagen.…
1.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)37.86sResponstijd (max)37.86sResponstijd (totaal)37.86sEen test is alleen volledig geslaagd als alle runs slagen.…