AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite Preview

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-05-28

Métrica	Claude Opus 4.8 Claude Opus 4.8 none Lanzamiento: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Lanzamiento: 2026-03-03

Métrica	Claude Opus 4.8 Claude Opus 4.8 none Lanzamiento: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Lanzamiento: 2026-03-03
Puntuación	7.3	7.5
Rango	#63	#53
Fiabilidad	10.0	10.0
Consistencia	9.2	9.7
Pruebas correctas
Tasa de aciertos por intento	65.0%	63.3%
Pruebas inestables	2	1
Ejecuciones totales	60	60
Costo por resultado	4.324	0.142
Costo total	$0.519	$0.017
Precio de entrada	$5.000 / 1M	$0.250 / 1M
Precio de salida	$25.000 / 1M	$1.500 / 1M
Tokens de salida	8,098	5,541
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	3.51s	1.23s
Tiempo de respuesta (máximo)	17.73s	3.39s
Tiempo de respuesta (total)	70.19s	24.68s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
Gemini 3.1 Flash Lite Preview	7.5	8.4	66.7%	1		1.04s	1,092	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		1.06s	664	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		3.20s	339	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.22s	399	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		942ms	568	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		741ms	69	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	574	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		900ms	1,045	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	782	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		814ms	9	0

Comparación rápida

Cambiar par de comparación

Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsRing-2.6-1Tmedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewnonevsKimi K2.6mediumDisponible gratis Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGLM 5V Turbomedium