Рейтинг моделей по Программирование

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Программирование, какие остаются надежными и где заметнее всего разница. Сортировать по: Метрика ↑.

Показано моделей

Среднее значение Оценка Программирование

5.7

Лучшая модель

Gemini 3.1 Flash Lite Preview 0.0

Причины сбоев

С причиной сбоя Неверный ответ230 С причиной сбоя Ошибка API43 С причиной сбоя Тайм-аут25 С причиной сбоя Нет ответа18 С причиной сбоя Не соблюдены инструкции16 С причиной сбоя Лишнее форматирование12

189/189

Ранг	Модель	Компания	Оценка Программирование	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#41	Gemini 3.1 Flash Lite Preview medium	Google	5.5	7.8	$0.068	1/3	4.09s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.068 Время ответа (среднее) 4.09s
#43	Gemini 3.1 Flash Lite medium	Google	5.5	7.8	$0.071	1/3	3.81s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.071 Время ответа (среднее) 3.81s
#68	Claude Sonnet 4.6 none	Anthropic	5.5	7.3	$0.316	1/3	5.19s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.316 Время ответа (среднее) 5.19s
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.539 Время ответа (среднее) 3.29s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.023 Время ответа (среднее) 2.15s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.036 Время ответа (среднее) 70.3s
#81	Gemini 3 Flash Preview none	Google	5.5	6.9	$0.025	1/3	1.80s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.025 Время ответа (среднее) 1.80s
#82	Qwen3.7 Max none	Qwen	5.5	6.9	$0.054	1/3	1.35s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.054 Время ответа (среднее) 1.35s
#96	Gemini 3.1 Flash Lite Preview low	Google	5.5	6.5	$0.026	1/3	1.39s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.026 Время ответа (среднее) 1.39s
#98	Gemini 3.1 Flash Lite Preview none	Google	5.5	6.4	$0.018	1/3	967ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.018 Время ответа (среднее) 967ms
#99	Gemini 3.1 Flash Lite low	Google	5.5	6.4	$0.028	1/3	1.53s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.028 Время ответа (среднее) 1.53s
#102	GPT-5.6 Sol none	OpenAI	5.5	6.3	$0.225	1/3	1.39s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.225 Время ответа (среднее) 1.39s
#105	GPT-5.5 none	OpenAI	5.5	6.3	$0.231	1/3	1.35s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.231 Время ответа (среднее) 1.35s
#108	GPT-5.6 Luna low	OpenAI	5.5	6.2	$0.141	1/3	4.61s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.141 Время ответа (среднее) 4.61s
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.016 Время ответа (среднее) 736ms

Рейтинг Программирование

Фильтровать модели

Лучшие модели по Оценка Программирование

Оценка Программирование vs общая стоимость

Лучшие модели по Время ответа (среднее)