Рейтинг моделей по Предметно-ориентированное

Посмотрите, какие AI-модели лучше всего справляются с Предметно-ориентированное, какие остаются надежными и где заметнее всего разница. Сортировать по: Тестов верно ↓.

Показано моделей

Среднее значение Оценка Предметно-ориентированное

4.7

Лучшая модель

Gemini 3 Flash Preview 10.0

Причины сбоев

С причиной сбоя Неверный ответ412 С причиной сбоя Тайм-аут43 С причиной сбоя Лишнее форматирование17 С причиной сбоя Нет ответа8 С причиной сбоя Ошибка API7 С причиной сбоя Не соблюдены инструкции1

210/210

Ранг	Модель	Компания	Оценка Предметно-ориентированное	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	3/3	15.3s
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.742 Время ответа (среднее) 15.3s
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	899ms
Всего тестов 3 Ошибочных тестов 0 Общая стоимость $0.300 Время ответа (среднее) 899ms
#209	Step 3.5 Flash none	Stepfun	3.3	2.3	$0.020	1/1	34.5s
Всего тестов 1 Ошибочных тестов 0 Общая стоимость $0.020 Время ответа (среднее) 34.5s
#2	Gemini 3.5 Flash high	Google	7.6	9.5	$1.976	2/3	14.1s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.976 Время ответа (среднее) 14.1s
#7	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.361	2/3	32.7s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.361 Время ответа (среднее) 32.7s
#9	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	5.24s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.642 Время ответа (среднее) 5.24s
#11	Gemini 3.5 Flash low	Google	7.7	8.9	$0.433	2/3	3.39s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.433 Время ответа (среднее) 3.39s
#15	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$1.477	2/3	1.17s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.477 Время ответа (среднее) 1.17s
#23	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	20.4s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.922 Время ответа (среднее) 20.4s
#28	Inkling high	Thinkingmachines	7.7	8.0	$1.006	2/3	186.4s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.006 Время ответа (среднее) 186.4s
#29	Step 3.7 Flash medium	Stepfun	7.7	8.0	$0.515	2/3	48.3s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.515 Время ответа (среднее) 48.3s
#44	GPT-5.6 Luna high	OpenAI	7.7	7.7	$1.017	2/3	79.0s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.017 Время ответа (среднее) 79.0s
#59	Qwen3.7 Max none	Qwen	7.7	7.4	$0.197	2/3	975ms
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.197 Время ответа (среднее) 975ms
#63	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	3.54s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $0.661 Время ответа (среднее) 3.54s
#79	Gemini 3.5 Flash none	Google	7.6	7.0	$1.079	2/3	10.6s
Всего тестов 3 Ошибочных тестов 1 Общая стоимость $1.079 Время ответа (среднее) 10.6s

1 2 14

→

Рейтинг Предметно-ориентированное

Фильтровать модели

Лучшие модели по Оценка Предметно-ориентированное

Оценка Предметно-ориентированное vs общая стоимость

Лучшие модели по Время ответа (среднее)