AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Google: Gemini 2.5 Flash

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-07

Métrica	Claude Opus 4.6 Claude Opus 4.6 medium Lanzamiento: 2026-02-05	Gemini 2.5 Flash Gemini 2.5 Flash medium Lanzamiento: 2025-06-17

Métrica	Claude Opus 4.6 Claude Opus 4.6 medium Lanzamiento: 2026-02-05	Gemini 2.5 Flash Gemini 2.5 Flash medium Lanzamiento: 2025-06-17
Puntuación	7.5	8.1
Rango	#35	#17
Consistencia	9.0	9.5
Pruebas correctas
Tasa de aciertos por intento	68.6%	74.5%
Pruebas inestables	2	1
Ejecuciones totales	51	51
Costo por resultado	11.973	2.430
Costo total	$1.317	$0.292
Precio de entrada	$5.000 / 1M	$0.300 / 1M
Precio de salida	$25.000 / 1M	$2.500 / 1M
Tokens de salida	26,343	1,376
Tokens de razonamiento	17,434	111,923
Tiempo de respuesta (promedio)	20.87s	11.88s
Tiempo de respuesta (máximo)	83.40s	95.48s
Tiempo de respuesta (total)	208.73s	201.89s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
Gemini 2.5 Flash	8.4	10.0	75.0%	0		6.30s	255	10,233

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Gemini 2.5 Flash	10.0	10.0	100.0%	0		28.44s	303	11,922

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
Gemini 2.5 Flash	10.0	10.0	100.0%	0		4.06s	279	2,325

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
Gemini 2.5 Flash	5.9	7.2	55.6%	1		37.34s	18	80,702

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Gemini 2.5 Flash	4.8	10.0	0.0%	0		4.86s	92	1,899

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Gemini 2.5 Flash	9.8	10.0	100.0%	0		2.62s	69	1,203

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
Gemini 2.5 Flash	7.7	10.0	66.7%	0		3.94s	126	2,499

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Gemini 2.5 Flash	10.0	10.0	100.0%	0		6.20s	234	1,140

Comparación rápida

Cambiar par de comparación

Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Claude Opus 4.6mediumvsGemma 4 31BnoneDisponible gratis Claude Opus 4.6mediumvsGLM 5none Claude Sonnet 4.6nonevsGemini 2.5 Flashmedium Claude Opus 4.6mediumvsMiMo-V2-Omninone