Рейтинг Парсинг и извлечение данных x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Парсинг и извлечение данных, чтобы быстрее находить слабые места. Сортировать по: Число сбоев ↑.

Показано моделей

Всего сбоев

Наиболее затронутая модель

Claude Opus 4.8 1

Причины сбоев

Неверный ответ41 Ошибка API14 Нет ответа8 Лишнее форматирование6 Тайм-аут1

Категории

Предметно-ориентированное412 Анти-ИИ уловки293 Программирование252 Решение головоломок201 Эрудиция168 Комбинированный68 Следование инструкциям61 Общий интеллект59 Парсинг и извлечение данных41 Вызов инструментов3

36/36

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $1.931 Время ответа (среднее) 12.3s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $2.077 Время ответа (среднее) 2.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $1.166 Время ответа (среднее) 1.77s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.454 Время ответа (среднее) 2.29s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.093 Время ответа (среднее) 1.11s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	7.3	$0.467	1/2	4.70s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.467 Время ответа (среднее) 4.70s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	$0.187	1/2	18.8s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.187 Время ответа (среднее) 18.8s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.469 Время ответа (среднее) 11.0s
#101	MiMo-V2.5 medium	Xiaomi	1	2.7	$0.082	0/2	6.33s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.082 Время ответа (среднее) 6.33s
#108	Ring-2.6-1T medium	Inclusionai	1	6.5	$0.103	1/2	37.4s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.103 Время ответа (среднее) 37.4s
#109	Mimo V2 PRO medium	Xiaomi	1	7.3	$0.333	1/2	17.2s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.333 Время ответа (среднее) 17.2s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.019 Время ответа (среднее) 1.98s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.5	$0.077	1/2	3.59s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.077 Время ответа (среднее) 3.59s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	3.65s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.048 Время ответа (среднее) 3.65s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.087 Время ответа (среднее) 2.06s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Парсинг и извлечение данных: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь