Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs StepFun: Step 3.5 Flash

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-06

Métrica	Anthropic: Claude Sonnet 4.6 none Lanzamiento: 2026-02-17	StepFun: Step 3.5 Flash medium Lanzamiento: 2026-02-01 Disponible gratis
Rango	#25	#13
Puntaje prom.	6.8	7.4
Consistencia	9.6	9.1
Costo por resultado	2.504	0.000
Costo total	$0.251	$0.000
Pruebas correctas
Tasa de aciertos por intento	66.7%	68.8%
Pruebas inestables	1	2
Ejecuciones totales	48 (16 x 3)	48 (16 x 3)
Tokens de salida	6,895	71,452
Tokens de razonamiento	0	155,147
Tiempo de respuesta (promedio)	5.57s	29.10s
Tiempo de respuesta (máximo)	23.84s	170.45s
Tiempo de respuesta (total)	50.12s	290.96s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	4.0	10.0	33.3%	0		4.83s	1,199	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	9.0	10.0	100.0%	0		23.84s	3,766	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	9.9	10.0	100.0%	0		3.43s	252	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	7.0	10.0	66.7%	0		3.54s	413	0
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	5.0	3.1	66.7%	1		2.56s	192	0
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	5.5	10.0	50.0%	0		1.96s	90	0
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	7.0	10.0	66.7%	0		2.92s	536	0
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	447	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Comparación rápida

Cambiar par de comparación

GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponible gratis Claude Sonnet 4.6nonevsQwen3.5-Flashmedium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponible gratis GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumDisponible gratis Claude Sonnet 4.6nonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratis Claude Sonnet 4.6nonevsKimi K2.5medium Claude Sonnet 4.6nonevsMiMo-V2-Flashmedium Claude Sonnet 4.6nonevsDeepSeek V3.2medium Claude Sonnet 4.6nonevsGemini 3.1 Flash Lite Previewlow