AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5 Mini

Resumen

Comparación benchmark de Claude Opus 4.8 vs GPT-5 Mini: GPT-5 Mini lidera en puntuación media con 8.5 vs 7.7. GPT-5 Mini tiene menor coste de benchmark con $0.159 vs $1.270. Claude Opus 4.8 es más rápido con 10.83s vs 23.64s, con tasas de acierto de 79.4% vs 63.5%.

Modelo recomendado: GPT-5 Mini - Tiene la mejor puntuación aquí (8.5) y cuesta aproximadamente 8.0x menos que Claude Opus 4.8.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-07-02

Métrica	Claude Opus 4.8 Claude Opus 4.8 low Lanzamiento: 2026-05-28	GPT-5 Mini GPT-5 Mini medium Lanzamiento: 2025-08-07

Métrica	Claude Opus 4.8 Claude Opus 4.8 low Lanzamiento: 2026-05-28	GPT-5 Mini GPT-5 Mini medium Lanzamiento: 2025-08-07
Puntuación	7.7	8.5
Rango	#38	#16
Fiabilidad	10.0	10.0
Consistencia	8.8	9.1
Pruebas correctas
Tasa de aciertos por intento	79.4%	63.5%
Pruebas inestables	3	2
Ejecuciones totales	63	63
Costo por resultado	8.466	1.319
Costo total	$1.270	$0.159
Precio de entrada	$5.000 / 1M	$0.250 / 1M
Precio de salida	$25.000 / 1M	$2.000 / 1M
Total de tokens de entrada	60,946	37,100
Tokens de salida	31,771	6,801
Tokens de razonamiento	6,831	67,690
Tiempo de respuesta (promedio)	10.83s	23.64s
Tiempo de respuesta (máximo)	127.97s	88.15s
Tiempo de respuesta (total)	227.39s	496.44s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

Coste: $0.031
Tiempo: 14.1s
Tokens: 1,345 tok

#16 GPT-5 Mini

medium

Coste: $0.007
Tiempo: 42.9s
Tokens: 3,432 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371
GPT-5 Mini	7.1	7.6	66.7%	1		13.86s	606	1,715	6,378

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809
GPT-5 Mini	10.0	10.0	100.0%	0		27.63s	7,302	658	17,152

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081
GPT-5 Mini	10.0	10.0	100.0%	0		88.15s	14,118	754	11,520

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0
GPT-5 Mini	10.0	10.0	100.0%	0		12.58s	7,140	453	3,200

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908
GPT-5 Mini	3.6	7.2	22.2%	1		44.63s	515	293	14,016

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0
GPT-5 Mini	4.5	10.0	0.0%	0		13.50s	477	349	1,856

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221
GPT-5 Mini	10.0	10.0	100.0%	0		11.59s	660	310	3,968

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184
GPT-5 Mini	5.6	9.8	33.3%	0		15.20s	642	1,622	6,144

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35
GPT-5 Mini	10.0	10.0	100.0%	0		18.64s	5,445	487	1,600

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222
GPT-5 Mini	3.0	10.0	0.0%	0		9.99s	195	160	1,856

Comparación rápida

Cambiar par de comparación