AI BENCHY
Comparar
❤️ Made by XCS

Nombre del modelo

OpenAI: gpt-oss-120b

Benchmarks generados a partir de los suites de prueba de Aibenchy en : 19 feb 2026

Métrica OpenAI: gpt-oss-120b
Rango#12
EmpresaOpenAI
Score 5.75
Consistencia 7.19
Costo por resultado 0.0951
Costo total $0.00571
Pruebas correctas 6/12
Tasa de aciertos por intento 63.9%
Pruebas inestables 4
Tokens de salida 8,060
Tokens de razonamiento 23,792

Desglose por categoría

Categoría Pruebas totalmente superadas Score Consistencia Tasa de aciertos por intento Pruebas inestables Puntuación de razonamiento Costo
Anti-AI Tricks 2/2 10.00 10.00 100.0% 0 10.00 $0.00029
Data parsing and extraction 1/2 5.50 5.81 83.3% 1 10.00 $0.00052
Domain specific 0/3 1.00 4.41 22.2% 2 8.53 $0.00393
Instructions following 2/2 10.00 10.00 100.0% 0 9.50 $0.00040
Puzzle Solving 1/3 5.00 7.13 44.4% 1 7.89 $0.00059

Modelos comparados

Comparar OpenAI: gpt-oss-120b contra...

#11 · OpenAI

OpenAI: GPT-5 Nano

Razonamiento (medium)

Score: 5.92

Consistencia: 6.03

Tasa de aciertos por intento: 72.2%

Pruebas inestables: 6

Costo por resultado: 0.4675

Pruebas correctas: 6/12

Costo total: $0.02806

Comparar

#13 · Anthropic

Anthropic: Claude Sonnet 4.6

Sin razonamiento

Score: 5.75

Consistencia: 9.42

Tasa de aciertos por intento: 52.8%

Pruebas inestables: 1

Costo por resultado: 0.9480

Pruebas correctas: 6/12

Costo total: $0.05688

Comparar

#10 · Google

Google: Gemini 3 Flash Preview

Sin razonamiento

Score: 6.25

Consistencia: 8.60

Tasa de aciertos por intento: 66.7%

Pruebas inestables: 2

Costo por resultado: 0.0754

Pruebas correctas: 7/12

Costo total: $0.00528

Comparar

Comparación rápida

Comparar OpenAI: gpt-oss-120b contra...