Рейтинг моделей по Программирование

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Программирование, какие остаются надежными и где заметнее всего разница. Сортировать по: Тестов верно ↓.

Показано моделей

Среднее значение Оценка Программирование

5.7

Лучшая модель

Gemini 3.5 Flash 10.0

Причины сбоев

С причиной сбоя Неверный ответ230 С причиной сбоя Ошибка API43 С причиной сбоя Тайм-аут25 С причиной сбоя Нет ответа18 С причиной сбоя Не соблюдены инструкции16 С причиной сбоя Лишнее форматирование12

189/189

Ранг	Модель	Компания	Оценка Программирование	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	5.5	6.1	$0.027	1/3	1.02s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.027 Время ответа (среднее) 1.02s
#117	GPT-5.6 Terra none	OpenAI	5.5	6.0	$0.130	1/3	1.00s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.130 Время ответа (среднее) 1.00s
#119	Qwen3.6 Flash none	Qwen	5.4	6.0	$0.015	1/3	1.79s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.015 Время ответа (среднее) 1.79s
#120	Qwen3.5-35B-A3B none	Qwen	5.5	5.9	$0.012	1/3	1.39s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.012 Время ответа (среднее) 1.39s
#121	Qwen3.5-27B none	Qwen	5.8	5.9	$0.015	1/3	1.80s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.015 Время ответа (среднее) 1.80s
#122	GLM 5V Turbo none	Z.ai	5.5	5.9	$0.052	1/3	3.13s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.052 Время ответа (среднее) 3.13s
#125	Owl Alpha medium	Openrouter	5.4	5.8	$0.000	1/3	18.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 18.7s
#126	Mimo V2 PRO none	Xiaomi	5.5	5.8	$0.045	1/3	2.65s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.045 Время ответа (среднее) 2.65s
#127	Owl Alpha none	Openrouter	5.6	5.8	$0.000	1/3	36.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 36.9s
#128	Kimi K2.6 none	Moonshot AI	5.5	5.8	$0.078	1/3	82.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.078 Время ответа (среднее) 82.6s
#129	GPT-5.4 none	OpenAI	5.5	5.8	$0.122	1/3	1.62s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.122 Время ответа (среднее) 1.62s
#136	Kimi K2.5 none	Moonshot AI	5.5	5.5	$0.027	1/3	24.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.027 Время ответа (среднее) 24.6s
#138	Qwen3.6 27B none	Qwen	5.5	5.5	$0.025	1/3	4.16s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.025 Время ответа (среднее) 4.16s
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.038 Время ответа (среднее) 913ms
#147	MiniMax M2.7 medium	Minimax	5.7	5.2	$0.100	1/3	101.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.100 Время ответа (среднее) 101.9s

Рейтинг Программирование

Фильтровать модели

Лучшие модели по Оценка Программирование

Оценка Программирование vs общая стоимость

Лучшие модели по Время ответа (среднее)