AI BENCHY Compare

Google: Gemini 2.5 Flash vs Qwen: Qwen3.5-27B

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-15

Métrica	Gemini 2.5 Flash Gemini 2.5 Flash medium Lanzamiento: 2025-06-17	Qwen3.5-27B Qwen3.5-27B medium Lanzamiento: 2026-02-24

Métrica	Gemini 2.5 Flash Gemini 2.5 Flash medium Lanzamiento: 2025-06-17	Qwen3.5-27B Qwen3.5-27B medium Lanzamiento: 2026-02-24
Rango	#15	#8
Puntuación	8.0	8.6
Consistencia	9.5	9.1
Costo por resultado	2.619	3.585
Costo total	$0.288	$0.431
Pruebas correctas
Tasa de aciertos por intento	72.9%	81.3%
Pruebas inestables	1	2
Ejecuciones totales	48	48
Tokens de salida	1,370	1,658
Tokens de razonamiento	110,522	200,786
Tiempo de respuesta (promedio)	12.35s	52.13s
Tiempo de respuesta (máximo)	95.48s	163.96s
Tiempo de respuesta (total)	197.62s	834.16s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	7.8	10.0	66.7%	0		6.98s	249	8,832
Qwen3.5-27B	10.0	10.0	100.0%	0		9.69s	102	8,956

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		28.44s	303	11,922
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	483	9,991

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		4.06s	279	2,325
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	270	16,150

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	5.9	7.2	55.6%	1		37.34s	18	80,702
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	43	52,368

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	4.8	10.0	0.0%	0		4.86s	92	1,899
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	70	23,147

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	9.8	10.0	100.0%	0		2.62s	69	1,203
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	97	11,638

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	7.7	10.0	66.7%	0		3.94s	126	2,499
Qwen3.5-27B	8.2	7.7	77.8%	1		64.61s	245	77,213

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		6.20s	234	1,140
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	348	1,323

Comparación rápida

Cambiar par de comparación

Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsGemini 2.5 Flashmedium GPT-5.2 ChatnonevsQwen3.5-27Bmedium Gemini 3 Flash PreviewnonevsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-27Bmedium GPT-5.3 ChatnonevsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-27Bmedium Claude Sonnet 4.6nonevsQwen3.5-27Bmedium Gemini 2.5 FlashmediumvsQwen3.5 Plus 2026-02-15none Gemini 2.5 FlashmediumvsGLM 5none