Comparar Gráficos

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.1 Flash Lite Preview

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-03

Métrica	Anthropic: Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	Google: Gemini 3.1 Flash Lite Preview none Lanzamiento: 2026-03-03
Rango	#11	#10
Puntaje prom.	7.43	7.70
Consistencia	9.40	9.54
Costo por resultado	8.105	0.116
Costo total	$0.811	$0.011
Pruebas correctas
Tasa de aciertos por intento	73.8%	69.1%
Pruebas inestables	1	1
Tokens de salida	29,098	4,307
Tokens de razonamiento	20,435	0

Mejores modelos por puntuación

Puntuación vs costo total

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	7.00	10.00	66.7%	0		1,031	1,093
Google: Gemini 3.1 Flash Lite Preview	6.00	7.85	55.6%	1		1,086	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		727	907
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		399	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	1.00	7.21	11.1%	1		25,790	16,919
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		568	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		316	523
Google: Gemini 3.1 Flash Lite Preview	9.00	10.00	50.0%	0		574	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		579	642
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		898	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		655	351
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		782	0

Comparación rápida

Cambiar par de comparación

Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratis DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium