Modelos comparados

Comparación benchmark GPT-5.2 Chat vs GPT-5.3 Chat vs Gemini 3.1 Flash Lite Preview (low)GPT-5.2 Chat lidera en Puntuación con 8.0. GPT-5.2 Chat lidera en Fiabilidad con 10.0. GPT-5.3 Chat tiene el Costo total más bajo con $0.571. GPT-5.3 Chat es el más rápido con 6.88s.

Modelo recomendadoGPT-5.2 ChatTiene la mejor puntuación aquí (8.0) y responde aproximadamente 1.5x más rápido que los otros modelos de esta comparación.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-07-21

Métrica	GPT-5.2 Chat GPT-5.2 Chat none Lanzamiento: 2025-12-11	GPT-5.3 Chat GPT-5.3 Chat none Lanzamiento: 2026-03-03	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Lanzamiento: 2026-03-03

Métrica	GPT-5.2 Chat GPT-5.2 Chat none Lanzamiento: 2025-12-11	GPT-5.3 Chat GPT-5.3 Chat none Lanzamiento: 2026-03-03	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Lanzamiento: 2026-03-03
Puntuación	8.0	7.5	6.5
Rango	#34	#58	#110
Fiabilidad	10.0	10.0	10.0
Consistencia	8.6	8.2	10.0
Pruebas correctas
Tasa de aciertos por intento	74.2%	68.2%	59.1%
Pruebas inestables	4	5	0
Ejecuciones totales	66	66	66
Costo por resultado	4.308	4.387	4.969
Costo total	$0.604	$0.571	$0.646
Precio de entrada	$1.750 / 1M	$1.750 / 1M	$0.250 / 1M
Precio de salida	$14.000 / 1M	$14.000 / 1M	$1.500 / 1M
Total de tokens de entrada	101,248	78,990	110,185
Tokens de salida	30,424	30,854	14,717
Tokens de razonamiento	0	0	397,483
Tiempo de respuesta (promedio)	7.65s	6.88s	16.70s
Tiempo de respuesta (máximo)	38.52s	18.33s	309.35s
Tiempo de respuesta (total)	168.39s	151.31s	367.47s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#34 GPT-5.2 Chat

none

Coste: $0.010
Tiempo: 15.3s
Tokens: 797 tok

#58 GPT-5.3 Chat

none

Coste: $0.008
Tiempo: 8.1s
Tokens: 634 tok

#110 Gemini 3.1 Flash Lite Preview

low

Coste: $0.002
Tiempo: 3.7s
Tokens: 1,203 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Categoría:

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	8.7	7.9	91.7%	1	3.40s	606	1,807	0
GPT-5.3 Chat	6.7	8.1	58.3%	1	3.86s	606	3,167	0
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0	2.12s	506	462	1,638

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	8.8	7.8	88.9%	1	9.82s	7,305	6,731	0
GPT-5.3 Chat	5.6	4.7	55.6%	2	10.52s	7,302	6,632	0
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0	1.39s	8,138	660	1,060

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	7.3	5.8	83.3%	1	13.91s	78,055	7,923	0
GPT-5.3 Chat	10.0	10.0	100.0%	0	15.07s	55,800	6,851	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0	160.63s	85,851	12,656	389,079

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	10.0	10.0	100.0%	3.05s	7,140	980	0
GPT-5.3 Chat	10.0	10.0	100.0%	2.21s	7,140	942	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	3.00s	7,455	291	696

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	5.3	10.0	33.3%	0	17.78s	723	7,810	0
GPT-5.3 Chat	3.5	4.4	33.3%	2	13.01s	723	8,264	0
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0	2.36s	641	18	1,212

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	4.4	3.0	33.3%	1	3.20s	477	335	0
GPT-5.3 Chat	4.6	10.0	0.0%	0	1.99s	477	319	0
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0	1.54s	490	69	384

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	9.8	10.0	100.0%	5.51s	660	1,441	0
GPT-5.3 Chat	9.8	10.0	100.0%	3.51s	660	1,491	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	1.49s	621	72	753

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	7.7	10.0	66.7%	4.10s	642	1,603	0
GPT-5.3 Chat	10.0	10.0	100.0%	2.99s	642	1,758	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	1.69s	566	243	1,248

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	10.0	10.0	100.0%	4.68s	5,445	555	0
GPT-5.3 Chat	10.0	10.0	100.0%	8.36s	5,445	861	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	9.54s	5,757	237	993

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.2 Chat	3.0	10.0	0.0%	6.89s	195	1,239	0
GPT-5.3 Chat	3.0	10.0	0.0%	4.38s	195	569	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	1.35s	160	9	420

Comparación rápida

Cambiar par de comparación

GPT-5.2 ChatnonevsStep 3.7 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-27Bnone GPT-5.2 ChatnonevsInklinghigh Gemini 3.1 Flash Lite PreviewlowvsLaguna XS 2.1mediumDisponible gratis Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5medium Gemini 3.5 Flash-LitehighvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsGLM 5.2high Kimi K2.7 CodemediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5 Plus 2026-02-15medium Muse Spark 1.1highvsGPT-5.2 Chatnone Nemotron 3 UltramediumDisponible gratisvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 27Bmedium