AI BENCHY Compare

OpenAI: GPT-5.2 Chat vs StepFun: Step 3.7 Flash

Resumen

La puntuación media está prácticamente empatada en 8.5 vs 8.5. Step 3.7 Flash (medium) tiene menor coste de benchmark con $0.376 vs $0.393. GPT-5.2 Chat es más rápido con 7.13s vs 20.35s, con tasas de acierto de 74.6% vs 73.0%.

Modelo recomendadoGPT-5.2 ChatTiene la mejor puntuación aquí (8.5) y responde aproximadamente 2.9x más rápido que Step 3.7 Flash (medium).

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-07-14

Métrica	GPT-5.2 Chat GPT-5.2 Chat none Lanzamiento: 2025-12-11	Step 3.7 Flash Step 3.7 Flash medium Lanzamiento: 2026-05-29

Métrica	GPT-5.2 Chat GPT-5.2 Chat none Lanzamiento: 2025-12-11	Step 3.7 Flash Step 3.7 Flash medium Lanzamiento: 2026-05-29
Puntuación	8.5	8.5
Rango	#22	#23
Fiabilidad	10.0	9.9
Consistencia	8.9	9.3
Pruebas correctas
Tasa de aciertos por intento	74.6%	73.0%
Pruebas inestables	3	2
Ejecuciones totales	63	61
Costo por resultado	2.803	2.686
Costo total	$0.393	$0.376
Precio de entrada	$1.750 / 1M	$0.200 / 1M
Precio de salida	$14.000 / 1M	$1.150 / 1M
Total de tokens de entrada	34,212	39,981
Tokens de salida	23,744	319,958
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	7.13s	20.35s
Tiempo de respuesta (máximo)	38.52s	113.98s
Tiempo de respuesta (total)	149.69s	427.42s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#22 GPT-5.2 Chat

none

Coste: $0.010
Tiempo: 15.3s
Tokens: 797 tok

#23 Step 3.7 Flash

medium

Coste: $0.006
Tiempo: 46.2s
Tokens: 4,466 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Categoría:

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	8.7	7.9	91.7%	1		3.40s	606	1,807	0
Step 3.7 Flash	8.7	7.9	91.7%	1		9.65s	756	32,185	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	8.8	7.8	88.9%	1		9.82s	7,305	6,731	0
Step 3.7 Flash	8.8	7.8	88.9%	1		27.42s	7,437	44,797	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	11,019	1,243	0
Step 3.7 Flash	10.0	10.0	100.0%	0		9.06s	13,683	7,106	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	10.0	10.0	100.0%	0		3.05s	7,140	980	0
Step 3.7 Flash	10.0	10.0	100.0%	0		2.75s	7,398	3,020	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	5.3	10.0	33.3%	0		17.78s	723	7,810	0
Step 3.7 Flash	7.7	10.0	66.7%	0		48.27s	708	70,347	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	4.4	3.0	33.3%	1		3.20s	477	335	0
Step 3.7 Flash	4.0	10.0	0.0%	0		6.85s	525	3,987	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	9.8	10.0	100.0%	0		5.51s	660	1,441	0
Step 3.7 Flash	9.8	10.0	100.0%	0		1.83s	735	2,166	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	7.7	10.0	66.7%	0		4.10s	642	1,603	0
Step 3.7 Flash	5.7	9.9	33.3%	0		6.19s	756	15,071	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	5,445	555	0
Step 3.7 Flash	10.0	10.0	100.0%	0		4.16s	7,746	2,115	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	3.0	10.0	0.0%	0		6.89s	195	1,239	0
Step 3.7 Flash	3.0	10.0	0.0%	0		113.98s	237	139,164	0

Comparación rápida

Cambiar par de comparación

Seed-2.0-LitemediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsGLM 5medium GPT-5.2 ChatnonevsGrok 4.5medium GPT-5.2 ChatnonevsGLM 5.2medium DeepSeek V4 FlashhighvsStep 3.7 Flashmedium DeepSeek V4 FlashhighvsGPT-5.2 Chatnone Claude Opus 4.7mediumvsGPT-5.2 Chatnone Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone GPT-5.6 TerrahighvsStep 3.7 Flashmedium GPT-5.2 ChatnonevsQwen3.7 Plusmedium Claude Opus 4.8mediumvsGPT-5.2 Chatnone Nemotron 3 Ultra 550b A55bmediumDisponible gratisvsGPT-5.2 Chatnone