Рейтинг моделей по Программирование

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Программирование, какие остаются надежными и где заметнее всего разница. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

Среднее значение Оценка Программирование

5.7

Лучшая модель

Gemini 3 PRO Preview 3.0

Причины сбоев

С причиной сбоя Неверный ответ230 С причиной сбоя Ошибка API43 С причиной сбоя Тайм-аут25 С причиной сбоя Нет ответа18 С причиной сбоя Не соблюдены инструкции16 С причиной сбоя Лишнее форматирование12

189/189

Ранг	Модель	Компания	Оценка Программирование	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.385 Время ответа (среднее) 0ms
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
Всего тестов 0 Ошибочных тестов 0 Общая стоимость $2.310 Время ответа (среднее) 0ms
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#152	Hunter Alpha medium	OpenRouter	9.8	5.1	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#174	Hunter Alpha none	OpenRouter	9.8	4.5	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#188	Step 3.5 Flash none	Stepfun	9.8	2.6	$0.020	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.020 Время ответа (среднее) 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
Всего тестов 0 Ошибочных тестов 0 Общая стоимость $0.001 Время ответа (среднее) 0ms
#142	Laguna XS 2.1 none	Poolside	4.3	5.3	$0.003	0/3	623ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.003 Время ответа (среднее) 623ms
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.016 Время ответа (среднее) 736ms
#183	Granite 4.1 8B none	IBM Granite	4.5	4.0	$0.003	0/3	775ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.003 Время ответа (среднее) 775ms
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.013 Время ответа (среднее) 831ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.005 Время ответа (среднее) 850ms
#149	Mistral Small 4 none	Mistral	3.7	5.1	$0.007	0/3	901ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.007 Время ответа (среднее) 901ms
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.038 Время ответа (среднее) 913ms
#168	Qwen3 Coder Next medium	Qwen	3.7	4.7	$0.008	0/3	924ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.008 Время ответа (среднее) 924ms

Рейтинг Программирование

Фильтровать модели

Лучшие модели по Оценка Программирование

Оценка Программирование vs общая стоимость

Лучшие модели по Время ответа (среднее)