Рейтинг сбоев по Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ, чтобы заранее заметить риски надежности. Сортировать по: Тестов верно ↓.

Показано моделей

Всего сбоев

1585

Наиболее затронутая модель

Gemini 3.6 Flash 1

Категории

215/215

Ранг	Модель	Компания	Количество Неверный ответ	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $3.059 Время ответа (среднее) 34.3s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.041 Время ответа (среднее) 49.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.774 Время ответа (среднее) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.571 Время ответа (среднее) 6.88s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.519 Время ответа (среднее) 5.31s
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $1.627 Время ответа (среднее) 111.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.115 Время ответа (среднее) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.117 Время ответа (среднее) 4.27s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $1.166 Время ответа (среднее) 4.91s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.317 Время ответа (среднее) 46.4s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.779 Время ответа (среднее) 47.4s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.535 Время ответа (среднее) 46.8s
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.085 Время ответа (среднее) 2.95s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.746 Время ответа (среднее) 58.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.646 Время ответа (среднее) 16.7s

Сбои: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)