Navegación
AI BENCHY
Advertise here

AI BENCHY Compare

Modelos comparados

Resumen

Comparación benchmark Claude Sonnet 4.6 vs Claude Sonnet 5 vs Claude Opus 4.8 vs GLM 5.2Claude Opus 4.8 lidera en Puntuación con 8.8. Claude Sonnet 4.6 lidera en Fiabilidad con 10.0. GLM 5.2 tiene el Costo total más bajo con $0.220. Claude Opus 4.8 es el más rápido con 9.72s.

Modelo recomendado: GLM 5.2 - Su puntuación se mantiene cerca de la mejor aquí (8.7 vs 8.8) y cuesta aproximadamente 4.7x menos que los otros modelos de esta comparación.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-30

Métrica Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17 Claude Sonnet 5 Claude Sonnet 5 medium Lanzamiento: 2026-06-30 Claude Opus 4.8 Claude Opus 4.8 medium Lanzamiento: 2026-05-28 GLM 5.2 GLM 5.2 medium Lanzamiento: 2026-06-17
Puntuación 7.8 7.9 8.8 8.7
Rango #32 #30 #12 #14
Fiabilidad 10.0 10.0 10.0 9.5
Consistencia 9.1 9.0 9.6 8.4
Pruebas correctas
Tasa de aciertos por intento 65.1% 79.4% 84.1% 84.1%
Pruebas inestables 2 3 1 4
Ejecuciones totales 63 63 63 63
Costo por resultado 10.904 3.662 6.512 2.159
Costo total $1.418 $0.550 $1.107 $0.220
Precio de entrada $3.000 / 1M $2.000 / 1M $5.000 / 1M $0.930 / 1M
Precio de salida $15.000 / 1M $10.000 / 1M $25.000 / 1M $3.000 / 1M
Total de tokens de entrada 49,112 67,416 61,007 37,199
Tokens de salida 54,703 34,012 26,495 12,261
Tokens de razonamiento 29,970 7,673 5,901 49,500
Tiempo de respuesta (promedio) 17.06s 9.94s 9.72s 23.28s
Tiempo de respuesta (máximo) 46.35s 56.94s 38.03s 101.36s
Tiempo de respuesta (total) 221.83s 208.71s 204.19s 488.94s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#32 Claude Sonnet 4.6

medium
SVG inválido
Coste
$0.000
Tiempo
300.0s
Tokens
0 tok

#30 Claude Sonnet 5

medium
Coste
$0.007
Tiempo
6.4s
Tokens
832 tok

#12 Claude Opus 4.8

medium
Coste
$0.057
Tiempo
23.1s
Tokens
2,412 tok

#14 GLM 5.2

medium
Coste
$0.041
Tiempo
195.8s
Tokens
9,287 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 4.6 6.5 10.0 50.0% 0 2.98s 789 1,046 1,093
Claude Sonnet 5 10.0 10.0 100.0% 0 3.80s 834 1,220 446
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 834 1,179 478
GLM 5.2 10.0 10.0 100.0% 0 5.89s 639 497 2,634
Programación Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 4.6 5.7 6.6 44.4% 1 33.29s 6,995 16,089 3,686
Claude Sonnet 5 9.0 7.9 88.9% 1 17.28s 10,590 13,153 2,379
Claude Opus 4.8 10.0 10.0 100.0% 0 15.33s 10,590 9,945 1,381
GLM 5.2 8.2 7.2 88.9% 1 40.96s 7,317 1,475 17,123
Combinado Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 4.6 10.0 10.0 100.0% 0 46.35s 18,351 5,871 3,962
Claude Sonnet 5 4.5 2.1 66.7% 1 37.01s 29,394 4,848 2,170
Claude Opus 4.8 9.8 10.0 100.0% 0 38.03s 23,561 5,260 1,588
GLM 5.2 10.0 10.0 100.0% 0 51.96s 12,696 458 4,531
Análisis y extracción de datos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 4.6 10.0 10.0 100.0% 0 13.90s 8,676 649 742
Claude Sonnet 5 10.0 10.0 100.0% 0 3.16s 10,503 312 0
Claude Opus 4.8 7.1 5.6 83.3% 1 12.29s 10,503 481 312
GLM 5.2 10.0 10.0 100.0% 0 13.44s 7,149 348 2,345
Específico del dominio Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 4.6 2.9 7.2 11.1% 1 0ms 471 25,790 16,919
Claude Sonnet 5 7.7 10.0 66.7% 0 20.38s 975 12,140 1,994
Claude Opus 4.8 5.3 10.0 33.3% 0 14.59s 975 7,477 900
GLM 5.2 4.1 4.4 44.5% 2 45.47s 551 8,188 11,606
Inteligencia general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.94s 564 256 433
Claude Sonnet 5 4.8 3.2 33.3% 1 4.32s 708 264 0
Claude Opus 4.8 10.0 10.0 100.0% 0 2.46s 708 237 0
GLM 5.2 10.0 10.0 100.0% 0 17.39s 498 54 1,842
Seguimiento de instrucciones Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 4.6 10.0 10.0 100.0% 0 2.61s 792 318 552
Claude Sonnet 5 9.9 10.0 100.0% 0 3.10s 909 318 269
Claude Opus 4.8 10.0 10.0 100.0% 0 3.32s 909 373 320
GLM 5.2 9.9 10.0 100.0% 0 7.90s 678 94 1,518
Resolución de acertijos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 4.6 10.0 10.0 100.0% 0 5.31s 816 592 646
Claude Sonnet 5 7.7 10.0 66.7% 0 2.98s 894 407 121
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 894 791 483
GLM 5.2 8.2 7.2 88.9% 1 13.13s 672 536 4,822
Llamada de herramientas Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 4.6 10.0 10.0 100.0% 0 7.48s 11,454 655 351
Claude Sonnet 5 10.0 10.0 100.0% 0 10.70s 12,351 433 90
Claude Opus 4.8 10.0 10.0 100.0% 0 8.96s 11,775 301 225
GLM 5.2 10.0 10.0 100.0% 0 20.41s 6,861 230 550
Cultura general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Claude Sonnet 4.6 3.0 10.0 0.0% 0 30.09s 204 3,437 1,586
Claude Sonnet 5 3.0 10.0 0.0% 0 7.06s 258 917 204
Claude Opus 4.8 3.0 10.0 0.0% 0 6.14s 258 451 214
GLM 5.2 3.0 10.0 0.0% 0 34.25s 138 381 2,529

Comparación rápida

Cambiar par de comparación