Рейтинг моделей по Программирование

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Программирование, какие остаются надежными и где заметнее всего разница. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

Среднее значение Оценка Программирование

5.7

Лучшая модель

Gemini 3 PRO Preview 3.0

Причины сбоев

С причиной сбоя Неверный ответ230 С причиной сбоя Ошибка API43 С причиной сбоя Тайм-аут25 С причиной сбоя Нет ответа18 С причиной сбоя Не соблюдены инструкции16 С причиной сбоя Лишнее форматирование12

189/189

Ранг	Модель	Компания	Оценка Программирование	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#83	Grok 4.20 Beta medium	X AI	3.3	6.8	$0.750	1/1	31.4s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.750 Время ответа (среднее) 31.4s
#67	Hy3 preview medium	Tencent	5.3	7.3	$0.018	1/3	31.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.018 Время ответа (среднее) 31.4s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.418 Время ответа (среднее) 33.3s
#80	Gemini 3.5 Flash none	Google	8.8	7.0	$1.079	2/3	34.7s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.079 Время ответа (среднее) 34.7s
#4	Qwen3.7 Max medium	Qwen	10.0	9.4	$0.523	3/3	35.3s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.523 Время ответа (среднее) 35.3s
#158	Laguna M.1 medium	Poolside	1.5	5.0	$0.033	0/1	35.6s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.033 Время ответа (среднее) 35.6s
#127	Owl Alpha none	Openrouter	5.6	5.8	$0.000	1/3	36.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 36.9s
#186	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.1	3.6	$0.000	0/1	38.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 38.1s
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.013 Время ответа (среднее) 38.4s
#153	Mistral Small 4 medium	Mistral	4.4	5.1	$0.068	0/3	40.0s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.068 Время ответа (среднее) 40.0s
#10	Gemini 3.1 Pro Preview medium	Google	7.9	9.2	$1.054	2/3	40.2s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.054 Время ответа (среднее) 40.2s
#17	GLM 5.2 medium	Z.ai	8.2	8.7	$0.179	2/3	41.0s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.179 Время ответа (среднее) 41.0s
#28	Gemini 2.5 Flash medium	Google	7.8	8.2	$0.379	2/3	41.0s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.379 Время ответа (среднее) 41.0s
#47	Grok 4.3 medium	X AI	5.9	7.7	$0.614	1/3	41.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.614 Время ответа (среднее) 41.2s
#93	GPT-5 Nano medium	OpenAI	7.0	6.7	$0.081	1/3	41.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.081 Время ответа (среднее) 41.6s

Рейтинг Программирование

Фильтровать модели

Лучшие модели по Оценка Программирование

Оценка Программирование vs общая стоимость

Лучшие модели по Время ответа (среднее)