Рейтинг моделей по Программирование

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Программирование, какие остаются надежными и где заметнее всего разница. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

Среднее значение Оценка Программирование

5.7

Лучшая модель

Gemini 3 PRO Preview 3.0

Причины сбоев

С причиной сбоя Неверный ответ230 С причиной сбоя Ошибка API43 С причиной сбоя Тайм-аут25 С причиной сбоя Нет ответа18 С причиной сбоя Не соблюдены инструкции16 С причиной сбоя Лишнее форматирование12

189/189

Ранг	Модель	Компания	Оценка Программирование	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#74	GLM 5.2 none	Z.ai	3.7	7.1	$0.042	0/3	7.55s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.042 Время ответа (среднее) 7.55s
#46	Claude Opus 4.8 low	Anthropic	6.6	7.7	$1.270	1/3	7.58s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.270 Время ответа (среднее) 7.58s
#148	Qwen3.6 35B A3B none	Qwen	5.5	5.2	$0.031	1/3	8.77s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.031 Время ответа (среднее) 8.77s
#29	GPT-5.6 Terra high	OpenAI	7.6	8.2	$0.852	2/3	9.14s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.852 Время ответа (среднее) 9.14s
#5	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$0.966	3/3	9.40s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.966 Время ответа (среднее) 9.40s
#50	Step 3.7 Flash low	Stepfun	8.2	7.7	$0.341	2/3	9.46s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.341 Время ответа (среднее) 9.46s
#48	GPT-5.6 Terra low	OpenAI	6.6	7.7	$0.343	1/3	9.56s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.343 Время ответа (среднее) 9.56s
#184	gpt-oss-120b none	OpenAI	1.5	4.0	$0.010	0/1	9.57s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.010 Время ответа (среднее) 9.57s
#22	GPT-5.2 Chat none	OpenAI	8.8	8.5	$0.393	2/3	9.82s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.393 Время ответа (среднее) 9.82s
#55	GPT-5.6 Luna medium	OpenAI	5.4	7.6	$0.258	1/3	10.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.258 Время ответа (среднее) 10.4s
#58	GPT-5.3 Chat none	OpenAI	5.6	7.5	$0.433	1/3	10.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.433 Время ответа (среднее) 10.5s
#167	Ling-2.6-1T none	Inclusionai	3.8	4.7	$0.005	0/3	10.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.005 Время ответа (среднее) 10.6s
#75	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.043 Время ответа (среднее) 10.7s
#114	Gemma 4 31B none	Google	5.5	6.1	$0.004	1/3	11.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.004 Время ответа (среднее) 11.2s
#163	Ling-2.6-flash none	Inclusionai	5.3	4.9	$0.001	1/3	11.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.001 Время ответа (среднее) 11.2s

Рейтинг Программирование

Фильтровать модели

Лучшие модели по Оценка Программирование

Оценка Программирование vs общая стоимость

Лучшие модели по Время ответа (среднее)