AI BENCHY
Vergelijken
❤️ Made by XCS

Modelnaam

Anthropic: Claude Sonnet 4.6

Benchmarks gegenereerd uit Aibenchy-testsuites op : 19 feb 2026

Metriek Anthropic: Claude Sonnet 4.6
Rang#6
BedrijfAnthropic
Score 7.00
Consistentie 9.30
Kosten per resultaat 9.3797
Totale kosten $0.75038
Correcte tests 8/12
Slaagpercentage per poging 69.4%
Instabiele tests 1
Uitvoer-tokens 28,193
Redeneer-tokens 19,665

Categorie-uitsplitsing

Categorie Volledig geslaagde tests Score Consistentie Slaagpercentage per poging Instabiele tests Redeneerscore Kosten
Anti-AI Tricks 1/2 5.50 10.00 50.0% 0 9.83 $0.02304
Data parsing and extraction 2/2 10.00 10.00 100.0% 0 9.83 $0.04958
Domain specific 0/3 1.00 7.21 11.1% 1 5.58 $0.64205
Instructions following 2/2 10.00 10.00 100.0% 0 10.00 $0.01497
Puzzle Solving 3/3 10.00 10.00 100.0% 0 9.44 $0.02077

Vergeleken modellen

Vergelijk Anthropic: Claude Sonnet 4.6 met...

#5 · OpenAI

OpenAI: GPT-5.2

Redenering (medium)

Score: 7.92

Consistentie: 9.30

Slaagpercentage per poging: 80.6%

Instabiele tests: 1

Kosten per resultaat: 2.2838

Correcte tests: 9/12

Totale kosten: $0.20554

Vergelijken

#7 · Z.ai

Z.ai: GLM 5

Redenering (medium)

Score: 6.83

Consistentie: 7.86

Slaagpercentage per poging: 80.6%

Instabiele tests: 3

Kosten per resultaat: 1.3424

Correcte tests: 8/12

Totale kosten: $0.10740

Vergelijken

#4 · Qwen

Qwen: Qwen3.5 Plus 2026-02-15

Redenering (medium)

Score: 8.42

Consistentie: 9.30

Slaagpercentage per poging: 86.1%

Instabiele tests: 1

Kosten per resultaat: 2.3151

Correcte tests: 10/12

Totale kosten: $0.23151

Vergelijken

Snelle vergelijking

Vergelijk Anthropic: Claude Sonnet 4.6 met...