Рейтинг моделей по Программирование

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Программирование, какие остаются надежными и где заметнее всего разница. Сортировать по: Тестов верно ↑.

Показано моделей

Среднее значение Оценка Программирование

5.7

Лучшая модель

Qwen3.6 Flash 5.0

Причины сбоев

С причиной сбоя Неверный ответ230 С причиной сбоя Ошибка API43 С причиной сбоя Тайм-аут25 С причиной сбоя Нет ответа18 С причиной сбоя Не соблюдены инструкции16 С причиной сбоя Лишнее форматирование12

189/189

Ранг	Модель	Компания	Оценка Программирование	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.016 Время ответа (среднее) 736ms
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.013 Время ответа (среднее) 831ms
#112	Gemini 3.1 Flash Lite none	Google	5.5	6.1	$0.013	1/3	938ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.013 Время ответа (среднее) 938ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.005 Время ответа (среднее) 850ms
#114	Gemma 4 31B none	Google	5.5	6.1	$0.004	1/3	11.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.004 Время ответа (среднее) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	5.5	6.1	$0.027	1/3	1.02s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.027 Время ответа (среднее) 1.02s
#117	GPT-5.6 Terra none	OpenAI	5.5	6.0	$0.130	1/3	1.00s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.130 Время ответа (среднее) 1.00s
#119	Qwen3.6 Flash none	Qwen	5.4	6.0	$0.015	1/3	1.79s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.015 Время ответа (среднее) 1.79s
#120	Qwen3.5-35B-A3B none	Qwen	5.5	5.9	$0.012	1/3	1.39s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.012 Время ответа (среднее) 1.39s
#121	Qwen3.5-27B none	Qwen	5.8	5.9	$0.015	1/3	1.80s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.015 Время ответа (среднее) 1.80s
#122	GLM 5V Turbo none	Z.ai	5.5	5.9	$0.052	1/3	3.13s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.052 Время ответа (среднее) 3.13s
#125	Owl Alpha medium	Openrouter	5.4	5.8	$0.000	1/3	18.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 18.7s
#126	Mimo V2 PRO none	Xiaomi	5.5	5.8	$0.045	1/3	2.65s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.045 Время ответа (среднее) 2.65s
#127	Owl Alpha none	Openrouter	5.6	5.8	$0.000	1/3	36.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 36.9s
#128	Kimi K2.6 none	Moonshot AI	5.5	5.8	$0.078	1/3	82.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.078 Время ответа (среднее) 82.6s

Рейтинг Программирование

Фильтровать модели

Лучшие модели по Оценка Программирование

Оценка Программирование vs общая стоимость

Лучшие модели по Время ответа (среднее)