Рейтинг моделей по Программирование

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Программирование, какие остаются надежными и где заметнее всего разница. Сортировать по: Метрика ↑.

Показано моделей

Среднее значение Оценка Программирование

5.7

Лучшая модель

Gemini 3.1 Flash Lite Preview 0.0

Причины сбоев

С причиной сбоя Неверный ответ230 С причиной сбоя Ошибка API43 С причиной сбоя Тайм-аут25 С причиной сбоя Нет ответа18 С причиной сбоя Не соблюдены инструкции16 С причиной сбоя Лишнее форматирование12

189/189

Ранг	Модель	Компания	Оценка Программирование	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
Всего тестов 0 Ошибочных тестов 0 Общая стоимость $2.310 Время ответа (среднее) 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
Всего тестов 0 Ошибочных тестов 0 Общая стоимость $0.001 Время ответа (среднее) 0ms
#186	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.1	3.6	$0.000	0/1	38.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 38.1s
#175	Grok 4.20 none	X AI	1.1	4.4	$0.057	0/1	1.22s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.057 Время ответа (среднее) 1.22s
#158	Laguna M.1 medium	Poolside	1.5	5.0	$0.033	0/1	35.6s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.033 Время ответа (среднее) 35.6s
#184	gpt-oss-120b none	OpenAI	1.5	4.0	$0.010	0/1	9.57s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.010 Время ответа (среднее) 9.57s
#181	Grok 4.1 Fast none	X AI	1.8	4.0	$0.008	0/1	1.79s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.008 Время ответа (среднее) 1.79s
#169	Grok 4.20 Beta none	X AI	1.8	4.7	$0.087	0/1	1.14s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.087 Время ответа (среднее) 1.14s
#176	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.015 Время ответа (среднее) 14.4s
#94	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.070 Время ответа (среднее) 258.4s
#170	Laguna M.1 none	Poolside	2.5	4.6	$0.009	0/1	2.93s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.009 Время ответа (среднее) 2.93s
#178	Hy3 preview none	Tencent	2.7	4.3	$0.003	0/3	4.56s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.003 Время ответа (среднее) 4.56s
#185	Qwen3.5-9B medium	Qwen	2.9	3.8	$0.036	0/3	100.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.036 Время ответа (среднее) 100.9s
#72	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.045 Время ответа (среднее) 272.5s
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.385 Время ответа (среднее) 0ms

Рейтинг Программирование

Фильтровать модели

Лучшие модели по Оценка Программирование

Оценка Программирование vs общая стоимость

Лучшие модели по Время ответа (среднее)