Рейтинг Парсинг и извлечение данных x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Парсинг и извлечение данных, чтобы быстрее находить слабые места. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

Всего сбоев

Наиболее затронутая модель

Granite 4.1 8B 2

Причины сбоев

Неверный ответ41 Ошибка API14 Нет ответа8 Лишнее форматирование6 Тайм-аут1

Категории

Предметно-ориентированное412 Анти-ИИ уловки293 Программирование252 Решение головоломок201 Эрудиция168 Комбинированный68 Следование инструкциям61 Общий интеллект59 Парсинг и извлечение данных41 Вызов инструментов3

36/36

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.007 Время ответа (среднее) 575ms
#189	Mercury 2 none	Inception	1	7.3	$0.030	1/2	667ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.030 Время ответа (среднее) 667ms
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.001 Время ответа (среднее) 714ms
#195	Elephant Alpha medium	Openrouter	1	6.5	$0.000	1/2	979ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 979ms
#193	Elephant Alpha none	Openrouter	1	6.5	$0.000	1/2	1.04s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 1.04s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.093 Время ответа (среднее) 1.11s
#180	GPT-5.4 Nano none	OpenAI	1	6.5	$0.041	1/2	1.11s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.041 Время ответа (среднее) 1.11s
#166	Qwen3 Coder Next none	Qwen	1	6.5	$0.025	1/2	1.32s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.025 Время ответа (среднее) 1.32s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 1.42s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $1.166 Время ответа (среднее) 1.77s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.019 Время ответа (среднее) 1.98s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.087 Время ответа (среднее) 2.06s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $2.077 Время ответа (среднее) 2.27s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.454 Время ответа (среднее) 2.29s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	2.72s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 2.72s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Парсинг и извлечение данных: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь