Рейтинг моделей по Программирование

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Программирование, какие остаются надежными и где заметнее всего разница. Сортировать по: Время ответа (среднее) ↓.

Показано моделей

Среднее значение Оценка Программирование

5.7

Лучшая модель

North Mini Code 4.5

Причины сбоев

С причиной сбоя Неверный ответ230 С причиной сбоя Ошибка API43 С причиной сбоя Тайм-аут25 С причиной сбоя Нет ответа18 С причиной сбоя Не соблюдены инструкции16 С причиной сбоя Лишнее форматирование12

189/189

Ранг	Модель	Компания	Оценка Программирование	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.033 Время ответа (среднее) 59.6s
#84	Qwen3.5-Flash medium	Qwen	3.7	6.8	$0.080	0/3	58.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.080 Время ответа (среднее) 58.9s
#33	GPT-5.4 Mini medium	OpenAI	8.4	8.0	$0.526	2/3	57.9s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.526 Время ответа (среднее) 57.9s
#177	GLM 4.7 Flash medium	Z.ai	3.2	4.3	$0.054	0/3	55.3s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.054 Время ответа (среднее) 55.3s
#27	DeepSeek V4 Flash high	DeepSeek	7.8	8.3	$0.027	2/3	50.6s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.027 Время ответа (среднее) 50.6s
#89	Qwen3.6 35B A3B medium	Qwen	7.7	6.7	$0.146	2/3	50.5s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.146 Время ответа (среднее) 50.5s
#24	GLM 5 Turbo medium	Z.ai	8.2	8.4	$0.323	2/3	45.9s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.323 Время ответа (среднее) 45.9s
#20	GPT-5.4 medium	OpenAI	8.8	8.5	$1.210	2/3	44.4s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.210 Время ответа (среднее) 44.4s
#60	Qwen3.6 Flash medium	Qwen	5.0	7.5	$0.288	0/3	42.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.288 Время ответа (среднее) 42.9s
#93	GPT-5 Nano medium	OpenAI	7.0	6.7	$0.081	1/3	41.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.081 Время ответа (среднее) 41.6s
#47	Grok 4.3 medium	X AI	5.9	7.7	$0.614	1/3	41.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.614 Время ответа (среднее) 41.2s
#28	Gemini 2.5 Flash medium	Google	7.8	8.2	$0.379	2/3	41.0s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.379 Время ответа (среднее) 41.0s
#17	GLM 5.2 medium	Z.ai	8.2	8.7	$0.179	2/3	41.0s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.179 Время ответа (среднее) 41.0s
#10	Gemini 3.1 Pro Preview medium	Google	7.9	9.2	$1.054	2/3	40.2s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.054 Время ответа (среднее) 40.2s
#153	Mistral Small 4 medium	Mistral	4.4	5.1	$0.068	0/3	40.0s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.068 Время ответа (среднее) 40.0s

Рейтинг Программирование

Фильтровать модели

Лучшие модели по Оценка Программирование

Оценка Программирование vs общая стоимость

Лучшие модели по Время ответа (среднее)