Anthropic: Claude Opus 4.6

Benchmarks aus Aibenchy-Test-Suites generiert am : 19.02.2026

Kategorieaufschlüsselung

Kategorie	Vollständig bestandene Tests	Score	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Begründungswert	Kosten
Anti-AI Tricks	0/2	1.00	1.62	33.3%	2	10.00	$0.03036
Data parsing and extraction	2/2	10.00	10.00	100.0%	0	9.83	$0.07755
Domain specific	0/3	1.00	10.00	0.0%	0	7.61	$0.60915
Instructions following	2/2	9.50	9.99	100.0%	0	9.50	$0.02231
Puzzle Solving	2/3	7.00	10.00	66.7%	0	9.44	$0.03281

Anthropic: Claude Opus 4.6 vergleichen mit...

#15 · Z.ai

Ohne Schlussfolgern

Score: 5.42

Konsistenz: 10.00

Erfolgsquote pro Versuch: 50.0%

Instabile Tests: 0

Kosten pro Ergebnis: 0.0704

Korrekte Tests: 6/12

Gesamtkosten: $0.00423

#17 · MiniMax

Schlussfolgern (medium)

Score: 5.08

Konsistenz: 6.00

Erfolgsquote pro Versuch: 61.1%

Instabile Tests: 6

Kosten pro Ergebnis: 4.0276

Korrekte Tests: 5/12

Gesamtkosten: $0.20138

#14 · Qwen

Ohne Schlussfolgern

Score: 5.67

Konsistenz: 9.99

Erfolgsquote pro Versuch: 50.0%

Instabile Tests: 0

Kosten pro Ergebnis: 0.0997

Korrekte Tests: 6/12

Gesamtkosten: $0.00599

Anthropic: Claude Opus 4.6 vergleichen mit...