Ranking de modelos de Cultura general

Categoría AI BENCHY

Mira qué modelos de IA rinden mejor en Cultura general, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Costo total ↑.

Modelos mostrados

Promedio de Puntuación de Cultura general

3.1

Mejor modelo

North Mini Code 3.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta133 Con motivo de fallo Error de API13 Con motivo de fallo Sin respuesta8

169/169

Rango	Modelo	Empresa	Puntuación de Cultura general	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#10	GPT-5.3-Codex medium	OpenAI	2.8	8.9	$0.740	0/1	14.4s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.740 Tiempo de respuesta (promedio) 14.4s
#69	Grok 4.20 Beta medium	X AI	0.0	6.8	$0.750	0/0	0ms
Pruebas totales 0 Pruebas incorrectas 0 Costo total $0.750 Tiempo de respuesta (promedio) 0ms
#35	Kimi K2.6 medium	Moonshot AI	3.0	7.8	$0.889	0/1	130.3s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.889 Tiempo de respuesta (promedio) 130.3s
#4	GPT-5.5 low	OpenAI	3.0	9.3	$0.907	0/1	10.1s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.907 Tiempo de respuesta (promedio) 10.1s
#42	Grok Build 0.1 medium	X AI	3.0	7.6	$0.927	0/1	53.5s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.927 Tiempo de respuesta (promedio) 53.5s
#11	Qwen3.6 Max Preview medium	Qwen	3.0	8.9	$0.960	0/1	60.6s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.960 Tiempo de respuesta (promedio) 60.6s
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.054	1/1	6.27s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.054 Tiempo de respuesta (promedio) 6.27s
#66	Gemini 3.5 Flash none	Google	2.8	7.0	$1.079	0/1	4.87s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $1.079 Tiempo de respuesta (promedio) 4.87s
#12	Claude Opus 4.8 medium	Anthropic	3.0	8.8	$1.107	0/1	6.14s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $1.107 Tiempo de respuesta (promedio) 6.14s
#1	Gemini 3.5 Flash high	Google	10.0	9.8	$1.115	1/1	3.94s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.115 Tiempo de respuesta (promedio) 3.94s
#63	Step 3.7 Flash high	Stepfun	3.0	7.1	$1.148	0/1	149.3s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $1.148 Tiempo de respuesta (promedio) 149.3s
#17	GPT-5.4 medium	OpenAI	3.0	8.5	$1.210	0/1	14.0s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $1.210 Tiempo de respuesta (promedio) 14.0s
#31	Claude Sonnet 4.6 medium	Anthropic	3.0	7.8	$1.418	0/1	30.1s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $1.418 Tiempo de respuesta (promedio) 30.1s
#83	Gemini 3.1 Flash Lite high	Google	0.0	6.5	$2.044	0/0	0ms
Pruebas totales 0 Pruebas incorrectas 0 Costo total $2.044 Tiempo de respuesta (promedio) 0ms
#38	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$2.053	0/1	63.2s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $2.053 Tiempo de respuesta (promedio) 63.2s

Ranking de Cultura general

Filtrar modelos

Mejores modelos por Puntuación de Cultura general

Puntuación de Cultura general vs costo total

Mejores modelos por Tiempo de respuesta (promedio)