Navegación
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Sonnet 5 vs DeepSeek: DeepSeek V4 Flash

Resumen

Comparación benchmark de Claude Sonnet 5 vs DeepSeek V4 Flash: DeepSeek V4 Flash lidera en puntuación media con 8.3 vs 7.9. DeepSeek V4 Flash tiene menor coste de benchmark con $0.029 vs $0.550. Claude Sonnet 5 es más rápido con 9.94s vs 45.85s, con tasas de acierto de 79.4% vs 74.6%.

Modelo recomendado: DeepSeek V4 Flash - Tiene la mejor puntuación aquí (8.3) y cuesta aproximadamente 19.3x menos que Claude Sonnet 5.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-30

Métrica Claude Sonnet 5 Claude Sonnet 5 medium Lanzamiento: 2026-06-30 DeepSeek V4 Flash DeepSeek V4 Flash high Lanzamiento: 2026-04-24
Puntuación 7.9 8.3
Rango #30 #23
Fiabilidad 10.0 10.0
Consistencia 9.0 8.5
Pruebas correctas
Tasa de aciertos por intento 79.4% 74.6%
Pruebas inestables 3 4
Ejecuciones totales 63 63
Costo por resultado 3.662 0.299
Costo total $0.550 $0.029
Precio de entrada $2.000 / 1M $0.098 / 1M
Precio de salida $10.000 / 1M $0.196 / 1M
Total de tokens de entrada 67,416 39,745
Tokens de salida 34,012 10,310
Tokens de razonamiento 7,673 123,501
Tiempo de respuesta (promedio) 9.94s 45.85s
Tiempo de respuesta (máximo) 56.94s 218.13s
Tiempo de respuesta (total) 208.71s 962.79s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 Claude Sonnet 5

medium
Coste
$0.007
Tiempo
6.4s
Tokens
832 tok

#23 DeepSeek V4 Flash

high
Coste
$0.003
Tiempo
93.1s
Tokens
7,926 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 5 10.0 10.0 100.0% 0 3.80s 834 1,220 446
DeepSeek V4 Flash 8.3 10.0 75.0% 0 28.51s 540 140 7,770
Programación Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 5 9.0 7.9 88.9% 1 17.28s 10,590 13,153 2,379
DeepSeek V4 Flash 7.8 10.0 66.7% 0 50.60s 7,279 395 34,862
Combinado Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 5 4.5 2.1 66.7% 1 37.01s 29,394 4,848 2,170
DeepSeek V4 Flash 10.0 10.0 100.0% 0 76.57s 14,016 465 7,347
Análisis y extracción de datos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 5 10.0 10.0 100.0% 0 3.16s 10,503 312 0
DeepSeek V4 Flash 10.0 10.0 100.0% 0 28.03s 7,290 201 1,179
Específico del dominio Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 5 7.7 10.0 66.7% 0 20.38s 975 12,140 1,994
DeepSeek V4 Flash 4.1 4.4 44.5% 2 100.31s 666 27 59,249
Inteligencia general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 5 4.8 3.2 33.3% 1 4.32s 708 264 0
DeepSeek V4 Flash 6.1 3.1 66.7% 1 25.15s 471 79 632
Seguimiento de instrucciones Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 5 9.9 10.0 100.0% 0 3.10s 909 318 269
DeepSeek V4 Flash 10.0 10.0 100.0% 0 15.36s 627 63 1,622
Resolución de acertijos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 5 7.7 10.0 66.7% 0 2.98s 894 407 121
DeepSeek V4 Flash 8.2 7.2 88.9% 1 26.11s 594 196 1,767
Llamada de herramientas Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 5 10.0 10.0 100.0% 0 10.70s 12,351 433 90
DeepSeek V4 Flash 10.0 10.0 100.0% 0 74.73s 8,079 228 542
Cultura general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 5 3.0 10.0 0.0% 0 7.06s 258 917 204
DeepSeek V4 Flash 3.0 10.0 0.0% 0 54.46s 183 8,516 8,531

Comparación rápida

Cambiar par de comparación