Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Google: Gemini 3.1 Flash Lite Preview

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-05

Métrica	Anthropic: Claude Opus 4.6 medium Lanzamiento: 2026-02-05	Google: Gemini 3.1 Flash Lite Preview none Lanzamiento: 2026-03-03
Puntaje prom.	6.4	7.4
Rango	#30	#20
Pruebas correctas
Consistencia	8.9	9.6
Costo por resultado	14.411	0.142
Costo total	$1.297	$0.015
Tasa de aciertos por intento	64.4%	71.1%
Pruebas inestables	2	1
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Tokens de salida	26,066	4,646
Tokens de razonamiento	17,071	0
Tiempo de respuesta (promedio)	25.08s	1.37s
Tiempo de respuesta (máximo)	83.40s	3.39s
Tiempo de respuesta (total)	200.67s	20.53s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
Google: Gemini 3.1 Flash Lite Preview	6.0	7.8	55.6%	1		1.16s	1,086	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	0.0%	0		3.20s	339	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		1.22s	399	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		942ms	568	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	574	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		972ms	898	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	782	0

Comparación rápida

Cambiar par de comparación

Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratis Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium