Рейтинг моделей по Программирование

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Программирование, какие остаются надежными и где заметнее всего разница. Сортировать по: Тестов верно ↑.

Показано моделей

Среднее значение Оценка Программирование

5.7

Лучшая модель

Qwen3.6 Flash 5.0

Причины сбоев

С причиной сбоя Неверный ответ230 С причиной сбоя Ошибка API43 С причиной сбоя Тайм-аут25 С причиной сбоя Нет ответа18 С причиной сбоя Не соблюдены инструкции16 С причиной сбоя Лишнее форматирование12

189/189

Ранг	Модель	Компания	Оценка Программирование	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#168	Qwen3 Coder Next medium	Qwen	3.7	4.7	$0.008	0/3	924ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.008 Время ответа (среднее) 924ms
#169	Grok 4.20 Beta none	X AI	1.8	4.7	$0.087	0/1	1.14s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.087 Время ответа (среднее) 1.14s
#170	Laguna M.1 none	Poolside	2.5	4.6	$0.009	0/1	2.93s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.009 Время ответа (среднее) 2.93s
#171	Mercury 2 none	Inception	3.4	4.6	$0.011	0/3	1.03s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.011 Время ответа (среднее) 1.03s
#172	Elephant Alpha none	Openrouter	4.2	4.6	$0.000	0/3	1.39s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 1.39s
#173	Elephant Alpha medium	Openrouter	3.7	4.5	$0.000	0/3	1.30s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 1.30s
#174	Hunter Alpha none	OpenRouter	9.8	4.5	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#175	Grok 4.20 none	X AI	1.1	4.4	$0.057	0/1	1.22s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.057 Время ответа (среднее) 1.22s
#176	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.015 Время ответа (среднее) 14.4s
#177	GLM 4.7 Flash medium	Z.ai	3.2	4.3	$0.054	0/3	55.3s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.054 Время ответа (среднее) 55.3s
#178	Hy3 preview none	Tencent	2.7	4.3	$0.003	0/3	4.56s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.003 Время ответа (среднее) 4.56s
#179	MiMo-V2-Flash none	Xiaomi	4.3	4.3	$0.025	0/3	2.64s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.025 Время ответа (среднее) 2.64s
#181	Grok 4.1 Fast none	X AI	1.8	4.0	$0.008	0/1	1.79s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.008 Время ответа (среднее) 1.79s
#182	Laguna Xs.2 none	Poolside	8.3	4.0	$0.004	0/1	1.96s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.004 Время ответа (среднее) 1.96s
#183	Granite 4.1 8B none	IBM Granite	4.5	4.0	$0.003	0/3	775ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.003 Время ответа (среднее) 775ms

Рейтинг Программирование

Фильтровать модели

Лучшие модели по Оценка Программирование

Оценка Программирование vs общая стоимость

Лучшие модели по Время ответа (среднее)