Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs StepFun: Step 3.5 Flash

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-06

Métrica	OpenAI: GPT-5.3 Chat none Lanzamiento: 2026-03-03	StepFun: Step 3.5 Flash medium Lanzamiento: 2026-02-01 Disponible gratis
Rango	#19	#13
Puntaje prom.	7.3	7.4
Consistencia	8.5	9.1
Costo por resultado	3.163	0.000
Costo total	$0.317	$0.000
Pruebas correctas
Tasa de aciertos por intento	70.8%	68.8%
Pruebas inestables	3	2
Ejecuciones totales	48 (16 x 3)	48 (16 x 3)
Tokens de salida	19,272	71,452
Tokens de razonamiento	0	155,147
Tiempo de respuesta (promedio)	5.96s	29.10s
Tiempo de respuesta (máximo)	18.33s	170.45s
Tiempo de respuesta (total)	95.30s	290.96s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	4.0	10.0	0.0%	0		1.99s	319	0
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Comparación rápida

Cambiar par de comparación

DeepSeek V3.2mediumvsGPT-5.3 Chatnone GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponible gratis GPT-5.3 ChatnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratis Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5-Flashmedium