Рейтинг Парсинг и извлечение данных x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Парсинг и извлечение данных, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

Наиболее затронутая модель

GPT-5 Nano 2

Причины сбоев

Неверный ответ41 Ошибка API14 Нет ответа8 Лишнее форматирование6 Тайм-аут1

Категории

Предметно-ориентированное412 Анти-ИИ уловки293 Программирование252 Решение головоломок201 Эрудиция168 Комбинированный68 Следование инструкциям61 Общий интеллект59 Парсинг и извлечение данных41 Вызов инструментов3

36/36

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#128	GPT-5 Nano medium	OpenAI	2	3.7	$0.114	0/2	21.4s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.114 Время ответа (среднее) 21.4s
#190	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	0/2	7.48s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.340 Время ответа (среднее) 7.48s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.007 Время ответа (среднее) 575ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 1.42s
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.001 Время ответа (среднее) 714ms
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $1.931 Время ответа (среднее) 12.3s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $2.077 Время ответа (среднее) 2.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $1.166 Время ответа (среднее) 1.77s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.454 Время ответа (среднее) 2.29s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.093 Время ответа (среднее) 1.11s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	7.3	$0.467	1/2	4.70s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.467 Время ответа (среднее) 4.70s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	$0.187	1/2	18.8s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.187 Время ответа (среднее) 18.8s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.469 Время ответа (среднее) 11.0s
#101	MiMo-V2.5 medium	Xiaomi	1	2.7	$0.082	0/2	6.33s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.082 Время ответа (среднее) 6.33s
#108	Ring-2.6-1T medium	Inclusionai	1	6.5	$0.103	1/2	37.4s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.103 Время ответа (среднее) 37.4s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Парсинг и извлечение данных: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь