Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs StepFun: Step 3.5 Flash

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-06

Métrica	Anthropic: Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	StepFun: Step 3.5 Flash medium Lanzamiento: 2026-02-01 Disponible gratis
Rango	#11	#13
Puntaje prom.	7.7	7.4
Consistencia	9.5	9.1
Costo por resultado	8.525	0.000
Costo total	$1.023	$0.000
Pruebas correctas
Tasa de aciertos por intento	77.1%	68.8%
Pruebas inestables	1	2
Ejecuciones totales	48 (16 x 3)	48 (16 x 3)
Tokens de salida	35,159	71,452
Tokens de razonamiento	24,687	155,147
Tiempo de respuesta (promedio)	11.23s	29.10s
Tiempo de respuesta (máximo)	46.35s	170.45s
Tiempo de respuesta (total)	89.84s	290.96s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	7.0	10.0	66.7%	0		4.95s	1,031	1,093
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	9.9	10.0	100.0%	0		13.90s	649	742
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	10.0	7.2	11.1%	1		0ms	25,790	16,919
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Comparación rápida

Cambiar par de comparación

GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponible gratis GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumDisponible gratis Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratis Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone