AI BENCHY
Comparar
❤️ Made by XCS

Nombre del modelo

Anthropic: Claude Sonnet 4.6

Benchmarks generados a partir de los suites de prueba de Aibenchy en : 19 feb 2026

Métrica Anthropic: Claude Sonnet 4.6
Rango#13
EmpresaAnthropic
Score 5.75
Consistencia 9.42
Costo por resultado 0.9480
Costo total $0.05688
Pruebas correctas 6/12
Tasa de aciertos por intento 52.8%
Pruebas inestables 1
Tokens de salida 1,659
Tokens de razonamiento 0

Desglose por categoría

Categoría Pruebas totalmente superadas Score Consistencia Tasa de aciertos por intento Pruebas inestables Puntuación de razonamiento Costo
Anti-AI Tricks 0/2 1.00 10.00 0.0% 0 - $0.01092
Data parsing and extraction 2/2 10.00 10.00 100.0% 0 - $0.02854
Domain specific 2/3 7.00 10.00 66.7% 0 - $0.00309
Instructions following 1/2 5.50 10.00 50.0% 0 - $0.00342
Puzzle Solving 1/3 5.00 7.68 44.4% 1 - $0.01092

Modelos comparados

Comparar Anthropic: Claude Sonnet 4.6 contra...

#12 · OpenAI

OpenAI: gpt-oss-120b

Razonamiento (medium)

Score: 5.75

Consistencia: 7.19

Tasa de aciertos por intento: 63.9%

Pruebas inestables: 4

Costo por resultado: 0.0951

Pruebas correctas: 6/12

Costo total: $0.00571

Comparar

#14 · Qwen

Qwen: Qwen3.5 Plus 2026-02-15

Sin razonamiento

Score: 5.67

Consistencia: 9.99

Tasa de aciertos por intento: 50.0%

Pruebas inestables: 0

Costo por resultado: 0.0997

Pruebas correctas: 6/12

Costo total: $0.00599

Comparar

#11 · OpenAI

OpenAI: GPT-5 Nano

Razonamiento (medium)

Score: 5.92

Consistencia: 6.03

Tasa de aciertos por intento: 72.2%

Pruebas inestables: 6

Costo por resultado: 0.4675

Pruebas correctas: 6/12

Costo total: $0.02806

Comparar

Comparación rápida

Comparar Anthropic: Claude Sonnet 4.6 contra...