Рейтинг Предметно-ориентированное x Лишнее форматирование

Посмотрите, какие AI-модели чаще всего сталкиваются с Лишнее форматирование в Предметно-ориентированное, чтобы быстрее находить слабые места. Сортировать по: Тестов верно ↓.

Показано моделей

Всего сбоев

Наиболее затронутая модель

Grok Build 0.1 1

Причины сбоев

Неверный ответ412 Тайм-аут43 Лишнее форматирование17 Нет ответа8 Ошибка API7 Не соблюдены инструкции1

Категории

Анти-ИИ уловки20 Программирование18 Предметно-ориентированное17 Решение головоломок8 Парсинг и извлечение данных6 Следование инструкциям3 Комбинированный1

13/13

Ранг	Модель	Компания	Количество Лишнее форматирование	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#48	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.097 Время ответа (среднее) 158.0s
#75	Grok 4.20 medium	X AI	1	5.3	$0.777	1/3	27.0s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.777 Время ответа (среднее) 27.0s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	5.3	$0.187	1/3	37.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.187 Время ответа (среднее) 37.9s
#101	MiMo-V2.5 medium	Xiaomi	1	5.3	$0.082	1/3	34.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.082 Время ответа (среднее) 34.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $2.057 Время ответа (среднее) 0ms
#43	Claude Opus 4.6 medium	Anthropic	2	3.0	$3.059	0/3	83.4s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $3.059 Время ответа (среднее) 83.4s
#46	DeepSeek V4 Pro high	DeepSeek	1	3.6	$0.200	0/3	151.5s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.200 Время ответа (среднее) 151.5s
#134	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/3	47.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.683 Время ответа (среднее) 47.9s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	2	2.9	$0.077	0/3	7.47s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.077 Время ответа (среднее) 7.47s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	2.9	$0.041	0/3	4.99s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.041 Время ответа (среднее) 4.99s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	2.9	$5.599	0/3	24.7s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $5.599 Время ответа (среднее) 24.7s
#184	Hunter Alpha medium	OpenRouter	1	3.0	$0.000	0/3	10.5s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 10.5s
#197	Grok 4.20 none	X AI	1	3.0	$0.057	0/3	687ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.057 Время ответа (среднее) 687ms

Фильтровать модели

Лучшие модели по Количество Лишнее форматирование

Количество Лишнее форматирование против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Предметно-ориентированное: Лишнее форматирование

Фильтровать модели

Лучшие модели по Количество Лишнее форматирование

Количество Лишнее форматирование против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь