Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs OpenAI: GPT-5.4

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-05

Métrica	Google: Gemini 3.1 Flash Lite Preview none Lanzamiento: 2026-03-03	OpenAI: GPT-5.4 medium Lanzamiento: 2026-03-05
Puntaje prom.	7.4	8.2
Rango	#20	#7
Pruebas correctas
Consistencia	9.6	8.9
Costo por resultado	0.142	6.533
Costo total	$0.015	$0.784
Tasa de aciertos por intento	71.1%	86.7%
Pruebas inestables	1	2
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Tokens de salida	4,646	1,611
Tokens de razonamiento	0	46,321
Tiempo de respuesta (promedio)	1.37s	21.06s
Tiempo de respuesta (máximo)	3.39s	100.41s
Tiempo de respuesta (total)	20.53s	315.95s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	6.0	7.8	55.6%	1		1.16s	1,086	0
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	0.0%	0		3.20s	339	0
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		1.22s	399	0
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		5.32s	234	804

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		942ms	568	0
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		74.27s	61	34,748

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	574	0
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		972ms	898	0
OpenAI: GPT-5.4	7.0	7.2	88.9%	1		9.13s	442	3,832

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	782	0
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031

Comparación rápida

Cambiar par de comparación

Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratis Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium