AI BENCHY Compare
Anthropic: Claude Sonnet 4.6 vs OpenAI: GPT-5.3 Chat
Comparar:
Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-03
| Métrica | Anthropic: Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17 | OpenAI: GPT-5.3 Chat none Lanzamiento: 2026-03-03 |
|---|---|---|
| Rango | #11 | #14 |
| Puntaje prom. | 7.43 | 7.27 |
| Consistencia | 9.40 | 8.26 |
| Costo por resultado | 8.105 | 2.835 |
| Costo total | $0.811 | $0.256 |
| Pruebas correctas | ||
| Tasa de aciertos por intento | 73.8% | 73.8% |
| Pruebas inestables | 1 | 3 |
| Tokens de salida | 29,098 | 16,339 |
| Tokens de razonamiento | 20,435 | 0 |
Puntuación vs costo total
Desglose por categoría
| Trucos anti-IA | Puntuación | Consistencia | Tasa de aciertos por intento | Pruebas inestables | Pruebas correctas | Tokens de salida | Tokens de razonamiento |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 7.00 | 10.00 | 66.7% | 0 | 1,031 | 1,093 | |
| OpenAI: GPT-5.3 Chat | 7.33 | 7.49 | 77.8% | 1 | 3,091 | 0 |
| Análisis y extracción de datos | Puntuación | Consistencia | Tasa de aciertos por intento | Pruebas inestables | Pruebas correctas | Tokens de salida | Tokens de razonamiento |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 727 | 907 | |
| OpenAI: GPT-5.3 Chat | 9.88 | 10.00 | 100.0% | 0 | 942 | 0 |
| Específico del dominio | Puntuación | Consistencia | Tasa de aciertos por intento | Pruebas inestables | Pruebas correctas | Tokens de salida | Tokens de razonamiento |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 1.00 | 7.21 | 11.1% | 1 | 25,790 | 16,919 | |
| OpenAI: GPT-5.3 Chat | 1.00 | 4.41 | 33.3% | 2 | 8,264 | 0 |
| Seguimiento de instrucciones | Puntuación | Consistencia | Tasa de aciertos por intento | Pruebas inestables | Pruebas correctas | Tokens de salida | Tokens de razonamiento |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 316 | 523 | |
| OpenAI: GPT-5.3 Chat | 8.50 | 9.99 | 50.0% | 0 | 1,455 | 0 |
| Puzzle Solving | Puntuación | Consistencia | Tasa de aciertos por intento | Pruebas inestables | Pruebas correctas | Tokens de salida | Tokens de razonamiento |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 579 | 642 | |
| OpenAI: GPT-5.3 Chat | 10.00 | 10.00 | 100.0% | 0 | 1,726 | 0 |
| Llamada de herramientas | Puntuación | Consistencia | Tasa de aciertos por intento | Pruebas inestables | Pruebas correctas | Tokens de salida | Tokens de razonamiento |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 655 | 351 | |
| OpenAI: GPT-5.3 Chat | 10.00 | 10.00 | 100.0% | 0 | 861 | 0 |
Comparación rápida
Cambiar par de comparación
GPT-5.3 ChatnonevsGLM 5mediumClaude Sonnet 4.6mediumvsGPT-5.2 ChatnoneGemini 2.5 FlashmediumvsGPT-5.3 ChatnoneClaude Sonnet 4.6mediumvsGemini 3 Flash PreviewnoneClaude Sonnet 4.6mediumvsGemini 3.1 Flash Lite PreviewnoneGPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponible gratisDeepSeek V3.2mediumvsGPT-5.3 ChatnoneClaude Sonnet 4.6mediumvsGemini 3.1 Flash Lite PreviewhighGemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 ChatnoneClaude Sonnet 4.6mediumvsGemini 3.1 Flash Lite PreviewlowGemini 3.1 Flash Lite PreviewhighvsGPT-5.3 ChatnoneGPT-5.3 ChatnonevsQwen3.5-122B-A10Bmedium