AI BENCHY Compare

Google: Gemini 2.5 Flash vs OpenAI: GPT-5.3 Chat

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-01

Métrica	Gemini 2.5 Flash Gemini 2.5 Flash medium Lanzamiento: 2025-06-17	GPT-5.3 Chat GPT-5.3 Chat none Lanzamiento: 2026-03-03

Métrica	Gemini 2.5 Flash Gemini 2.5 Flash medium Lanzamiento: 2025-06-17	GPT-5.3 Chat GPT-5.3 Chat none Lanzamiento: 2026-03-03
Puntuación	7.7	7.4
Rango	#40	#57
Fiabilidad	10.0	10.0
Consistencia	9.6	8.4
Pruebas correctas
Tasa de aciertos por intento	68.3%	68.3%
Pruebas inestables	1	4
Ejecuciones totales	60	60
Costo por resultado	2.750	3.350
Costo total	$0.358	$0.402
Precio de entrada	$0.300 / 1M	$1.750 / 1M
Precio de salida	$2.500 / 1M	$14.000 / 1M
Tokens de salida	1,924	24,757
Tokens de razonamiento	137,255	0
Tiempo de respuesta (promedio)	15.57s	6.13s
Tiempo de respuesta (máximo)	95.48s	18.33s
Tiempo de respuesta (total)	311.47s	122.61s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	8.4	10.0	75.0%	0		6.30s	255	10,233
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	3,167	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	6.6	10.0	50.0%	0		54.56s	537	24,413
GPT-5.3 Chat	6.9	6.2	66.7%	1		10.52s	4,772	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		28.44s	303	11,922
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		4.06s	279	2,325
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	942	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	5.9	7.2	55.6%	1		37.34s	18	80,702
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	8,264	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	4.8	10.0	0.0%	0		4.86s	92	1,899
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	319	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	9.8	10.0	100.0%	0		2.62s	69	1,203
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	1,491	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	7.7	10.0	66.7%	0		3.18s	126	2,499
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	1,758	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		6.20s	234	1,140
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	3.0	10.0	0.0%	0		2.76s	11	919
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	569	0

Comparación rápida

Cambiar par de comparación

GPT-5.3 ChatnonevsMiMo-V2.5medium GPT-5.3 ChatnonevsGLM 5.1medium Gemini 3.1 Flash LitelowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsStep 3.7 Flashlow Kimi K2.6mediumDisponible gratisvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsStep 3.5 Flashmedium GPT-5.3 ChatnonevsGLM 5V Turbomedium DeepSeek V4 FlashhighvsGemini 2.5 Flashmedium MiniMax M3mediumvsGPT-5.3 Chatnone Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone GPT-5.3 ChatnonevsQwen3.5-35B-A3Bmedium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone