AI BENCHY Compare

OpenAI: GPT-5.5 vs Qwen: Qwen3.6 27B

Сводка

Сравнение benchmark GPT-5.5 vs Qwen3.6 27B: Qwen3.6 27B лидирует по среднему баллу: 6.8 vs 6.4. GPT-5.5 имеет более низкую стоимость benchmark: $0.231 vs $0.336. GPT-5.5 быстрее: 1.89s vs 59.71s, с долей успешных попыток 54.0% vs 60.3%.

Рекомендуемая модель: GPT-5.5 - Его балл близок к лучшему здесь (6.4 против 6.8), и он отвечает примерно в 31.6 раза быстрее, чем Qwen3.6 27B.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-10

Метрика	GPT-5.5 GPT-5.5 none Релиз: 2026-04-24	Qwen3.6 27B Qwen3.6 27B medium Релиз: 2026-04-20

Метрика	GPT-5.5 GPT-5.5 none Релиз: 2026-04-24	Qwen3.6 27B Qwen3.6 27B medium Релиз: 2026-04-20
Оценка	6.4	6.8
Ранг	#92	#79
Надежность	10.0	10.0
Стабильность	8.8	8.2
Тестов верно
Доля успешных попыток	54.0%	60.3%
Нестабильные тесты	3	5
Всего запусков	63	63
Стоимость за результат	2.302	3.361
Общая стоимость	$0.231	$0.336
Цена входа	$5.000 / 1M	$0.290 / 1M
Цена выхода	$30.000 / 1M	$2.400 / 1M
Общее число входных токенов	34,212	39,376
Выходные токены	1,971	16,189
Токены рассуждений	0	122,521
Время ответа (среднее)	1.89s	59.71s
Время ответа (макс.)	5.56s	168.22s
Время ответа (суммарно)	39.64s	1254.01s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#92 GPT-5.5

none

Cost: $0.090
Time: 54.3s
Tokens: 3,063 tok

#79 Qwen3.6 27B

medium

Cost: $0.009
Time: 39.6s
Tokens: 3,090 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	6.9	7.9	66.7%	1		1.31s	606	213	0
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	453	582	4,311

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	5.5	10.0	33.3%	0		1.35s	7,305	462	0
Qwen3.6 27B	7.7	10.0	66.7%	0		142.99s	5,051	7,968	43,367

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	3.0	10.0	0.0%	0		5.56s	11,019	300	0
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	15,104	2,088	14,689

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	10.0	10.0	100.0%	0		1.18s	7,140	222	0
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	7,778	568	9,404

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	2.9	7.2	11.1%	1		1.31s	723	52	0
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	662	3,510	20,352

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	10.0	10.0	100.0%	0		3.41s	477	124	0
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	516	81	3,045

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	6.2	5.8	66.7%	1		1.15s	660	81	0
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	699	346	6,548

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	7.7	10.0	66.7%	0		1.29s	642	252	0
Qwen3.6 27B	7.7	10.0	66.7%	0		61.14s	696	255	12,044

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	10.0	10.0	100.0%	0		3.90s	5,445	247	0
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	8,213	390	2,954

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.5	3.0	10.0	0.0%	0		5.01s	195	18	0
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	204	401	5,807

Быстрое сравнение

Сменить пару сравнения

Gemini 3.1 Flash LiteminimalvsGPT-5.5none Claude Sonnet 4.6nonevsQwen3.6 27Bmedium Gemma 4 31BnoneБесплатно доступноvsQwen3.6 27Bmedium Mercury 2mediumvsGPT-5.5none Qwen3.6 27BmediumvsStep 3.7 Flashhigh Claude Opus 4.8nonevsQwen3.6 27Bmedium Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bmedium Gemini 3.1 Flash LitenonevsQwen3.6 27Bmedium DeepSeek V4 ProhighvsGPT-5.5none Kimi K2.5mediumvsGPT-5.5none GPT-5.3 ChatnonevsQwen3.6 27Bmedium Ring-2.6-1TmediumvsGPT-5.5none