Рейтинг моделей по Программирование

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Программирование, какие остаются надежными и где заметнее всего разница. Сортировать по: Метрика ↑.

Показано моделей

Среднее значение Оценка Программирование

5.7

Лучшая модель

Gemini 3.1 Flash Lite Preview 0.0

Причины сбоев

С причиной сбоя Неверный ответ230 С причиной сбоя Ошибка API43 С причиной сбоя Тайм-аут25 С причиной сбоя Нет ответа18 С причиной сбоя Не соблюдены инструкции16 С причиной сбоя Лишнее форматирование12

189/189

Ранг	Модель	Компания	Оценка Программирование	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#146	DeepSeek V3.2 none	DeepSeek	3.1	5.3	$0.016	0/3	14.5s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.016 Время ответа (среднее) 14.5s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.020 Время ответа (среднее) 147.3s
#159	GPT-4o-mini none	OpenAI	3.2	5.0	$0.006	0/3	1.63s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.006 Время ответа (среднее) 1.63s
#177	GLM 4.7 Flash medium	Z.ai	3.2	4.3	$0.054	0/3	55.3s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.054 Время ответа (среднее) 55.3s
#87	Mimo V2 Omni medium	Xiaomi	3.3	6.8	$0.683	0/3	183.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.683 Время ответа (среднее) 183.9s
#162	Nemotron 3 Super none	NVIDIA	3.3	4.9	$0.006	0/3	2.64s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.006 Время ответа (среднее) 2.64s
#62	Claude Opus 4.7 none	Anthropic	3.3	7.4	$0.505	1/1	2.84s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.505 Время ответа (среднее) 2.84s
#83	Grok 4.20 Beta medium	X AI	3.3	6.8	$0.750	1/1	31.4s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.750 Время ответа (среднее) 31.4s
#97	Gemini 3.1 Flash Lite high	Google	3.3	6.5	$2.044	1/1	137.6s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $2.044 Время ответа (среднее) 137.6s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $5.599 Время ответа (среднее) 27.1s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.547 Время ответа (среднее) 21.4s
#187	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.3	3.5	$0.000	1/1	1.27s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.000 Время ответа (среднее) 1.27s
#171	Mercury 2 none	Inception	3.4	4.6	$0.011	0/3	1.03s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.011 Время ответа (среднее) 1.03s
#166	MiniMax M2.5 medium	Minimax	3.4	4.7	$0.303	0/3	188.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.303 Время ответа (среднее) 188.6s
#157	Trinity Large Preview none	Arcee AI	3.7	5.0	$0.008	0/3	14.3s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.008 Время ответа (среднее) 14.3s

Рейтинг Программирование

Фильтровать модели

Лучшие модели по Оценка Программирование

Оценка Программирование vs общая стоимость

Лучшие модели по Время ответа (среднее)