Рейтинг моделей по Программирование

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Программирование, какие остаются надежными и где заметнее всего разница. Сортировать по: Тестов верно ↑.

Показано моделей

Среднее значение Оценка Программирование

5.7

Лучшая модель

Qwen3.6 Flash 5.0

Причины сбоев

С причиной сбоя Неверный ответ230 С причиной сбоя Ошибка API43 С причиной сбоя Тайм-аут25 С причиной сбоя Нет ответа18 С причиной сбоя Не соблюдены инструкции16 С причиной сбоя Лишнее форматирование12

189/189

Ранг	Модель	Компания	Оценка Программирование	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.033 Время ответа (среднее) 59.6s
#88	Hy3 preview high	Tencent	5.3	6.8	$0.048	1/3	99.8s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.048 Время ответа (среднее) 99.8s
#90	MiMo-V2.5 medium	Xiaomi	6.2	6.7	$0.061	1/3	97.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.061 Время ответа (среднее) 97.1s
#91	Mimo V2 PRO medium	Xiaomi	6.0	6.7	$0.333	1/3	94.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.333 Время ответа (среднее) 94.2s
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.013 Время ответа (среднее) 38.4s
#93	GPT-5 Nano medium	OpenAI	7.0	6.7	$0.081	1/3	41.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.081 Время ответа (среднее) 41.6s
#96	Gemini 3.1 Flash Lite Preview low	Google	5.5	6.5	$0.026	1/3	1.39s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.026 Время ответа (среднее) 1.39s
#98	Gemini 3.1 Flash Lite Preview none	Google	5.5	6.4	$0.018	1/3	967ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.018 Время ответа (среднее) 967ms
#99	Gemini 3.1 Flash Lite low	Google	5.5	6.4	$0.028	1/3	1.53s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.028 Время ответа (среднее) 1.53s
#100	Hy3 preview low	Tencent	5.3	6.4	$0.015	1/3	27.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.015 Время ответа (среднее) 27.9s
#102	GPT-5.6 Sol none	OpenAI	5.5	6.3	$0.225	1/3	1.39s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.225 Время ответа (среднее) 1.39s
#104	Qwen3.5-35B-A3B medium	Qwen	5.9	6.3	$0.401	1/3	206.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.401 Время ответа (среднее) 206.6s
#105	GPT-5.5 none	OpenAI	5.5	6.3	$0.231	1/3	1.35s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.231 Время ответа (среднее) 1.35s
#107	Seed-2.0-Lite none	Bytedance Seed	5.6	6.2	$0.019	1/3	2.83s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.019 Время ответа (среднее) 2.83s
#108	GPT-5.6 Luna low	OpenAI	5.5	6.2	$0.141	1/3	4.61s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.141 Время ответа (среднее) 4.61s

Рейтинг Программирование

Фильтровать модели

Лучшие модели по Оценка Программирование

Оценка Программирование vs общая стоимость

Лучшие модели по Время ответа (среднее)