AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs StepFun: Step 3.7 Flash

Resumen

Claude Opus 4.8 lidera en puntuación media con 7.2 vs 7.1. Claude Opus 4.8 tiene menor coste de benchmark con $0.539 vs $1.148. Claude Opus 4.8 es más rápido con 3.48s vs 64.46s, con tasas de acierto de 61.9% vs 63.5%.

Modelo recomendadoClaude Opus 4.8Tiene la mejor puntuación aquí (7.2) y cuesta aproximadamente 2.1x menos que Step 3.7 Flash (high).

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-07-14

Métrica	Claude Opus 4.8 Claude Opus 4.8 none Lanzamiento: 2026-05-28	Step 3.7 Flash Step 3.7 Flash high Lanzamiento: 2026-05-29

Métrica	Claude Opus 4.8 Claude Opus 4.8 none Lanzamiento: 2026-05-28	Step 3.7 Flash Step 3.7 Flash high Lanzamiento: 2026-05-29
Puntuación	7.2	7.1
Rango	#73	#79
Fiabilidad	10.0	10.0
Consistencia	9.2	8.2
Pruebas correctas
Tasa de aciertos por intento	61.9%	63.5%
Pruebas inestables	2	4
Ejecuciones totales	63	63
Costo por resultado	4.485	10.434
Costo total	$0.539	$1.148
Precio de entrada	$5.000 / 1M	$0.200 / 1M
Precio de salida	$25.000 / 1M	$1.150 / 1M
Total de tokens de entrada	67,104	38,391
Tokens de salida	8,107	991,355
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	3.48s	64.46s
Tiempo de respuesta (máximo)	17.73s	364.99s
Tiempo de respuesta (total)	73.00s	1353.57s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#73 Claude Opus 4.8

none

Coste: $0.053
Tiempo: 22.0s
Tokens: 2,253 tok

#79 Step 3.7 Flash

high

Coste: $0.007
Tiempo: 63.6s
Tokens: 6,030 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Categoría:

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Step 3.7 Flash	10.0	10.0	100.0%	0		13.01s	13,638	8,802	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

Comparación rápida

Cambiar par de comparación

Step 3.7 FlashhighvsGLM 5.1medium Laguna XS 2.1mediumDisponible gratisvsStep 3.7 Flashhigh Step 3.7 FlashhighvsGLM 5.2none Claude Opus 4.8nonevsGemma 4 26B A4BmediumDisponible gratis Qwen3.7 PlusnonevsStep 3.7 Flashhigh Kimi K2.7 CodemediumvsStep 3.7 Flashhigh Gemma 4 26B A4BmediumDisponible gratisvsStep 3.7 Flashhigh DeepSeek V4 PrononevsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsStep 3.7 Flashhigh Claude Opus 4.8nonevsGrok 4.20medium Claude Opus 4.8nonevsGLM 5.1medium Claude Opus 4.8nonevsGemini 3 Flash Previewlow