Отслеживайте лучшие SOTA AI-модели в лидерборде AI BENCHY — это простой способ узнать, какие модели сейчас лидируют по оценке, качеству рассуждений, надежности и ценности. Сортировать по: Тестов верно ↓.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06Оценено моделей: 55
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)12.36sВремя ответа (макс.)50.16sВремя ответа (суммарно)111.21s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.61sВремя ответа (макс.)5.61sВремя ответа (суммарно)5.61s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)50.16sВремя ответа (макс.)50.16sВремя ответа (суммарно)50.16s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.72sВремя ответа (макс.)4.72sВремя ответа (суммарно)4.72s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)21.12sВремя ответа (макс.)21.12sВремя ответа (суммарно)21.12s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.09sВремя ответа (макс.)4.09sВремя ответа (суммарно)4.09s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.10sВремя ответа (макс.)6.10sВремя ответа (суммарно)6.10s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.43sВремя ответа (макс.)4.68sВремя ответа (суммарно)8.85s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)10.55sВремя ответа (макс.)10.55sВремя ответа (суммарно)10.55s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)16.60sВремя ответа (макс.)40.61sВремя ответа (суммарно)149.36s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.52sВремя ответа (макс.)9.52sВремя ответа (суммарно)9.52s
Combined: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)40.61sВремя ответа (макс.)40.61sВремя ответа (суммарно)40.61s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.72sВремя ответа (макс.)7.72sВремя ответа (суммарно)7.72s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)32.73sВремя ответа (макс.)32.73sВремя ответа (суммарно)32.73s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.77sВремя ответа (макс.)11.77sВремя ответа (суммарно)11.77s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.56sВремя ответа (макс.)9.56sВремя ответа (суммарно)9.56s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.15sВремя ответа (макс.)8.49sВремя ответа (суммарно)14.30s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)23.15sВремя ответа (макс.)23.15sВремя ответа (суммарно)23.15s
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 2Неверный ответ: 1Время ответа (среднее)34.45sВремя ответа (макс.)79.86sВремя ответа (суммарно)310.09s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)10.37sВремя ответа (макс.)10.37sВремя ответа (суммарно)10.37s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)46.85sВремя ответа (макс.)46.85sВремя ответа (суммарно)46.85s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)46.91sВремя ответа (макс.)46.91sВремя ответа (суммарно)46.91s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)17.50sВремя ответа (макс.)17.50sВремя ответа (суммарно)17.50s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)79.86sВремя ответа (макс.)79.86sВремя ответа (суммарно)79.86s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)31.93sВремя ответа (макс.)31.93sВремя ответа (суммарно)31.93s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)34.57sВремя ответа (макс.)49.12sВремя ответа (суммарно)69.13s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.54sВремя ответа (макс.)7.54sВремя ответа (суммарно)7.54s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)6.11sВремя ответа (макс.)14.72sВремя ответа (суммарно)97.74s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.50sВремя ответа (макс.)4.31sВремя ответа (суммарно)10.49s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.27sВремя ответа (макс.)3.27sВремя ответа (суммарно)3.27s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.40sВремя ответа (макс.)14.72sВремя ответа (суммарно)18.80s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)8.05sВремя ответа (макс.)14.40sВремя ответа (суммарно)24.15s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.68sВремя ответа (макс.)3.68sВремя ответа (суммарно)3.68s
Instructions following: 9.5Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.02sВремя ответа (макс.)7.35sВремя ответа (суммарно)14.03s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.11sВремя ответа (макс.)10.27sВремя ответа (суммарно)18.32s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.99sВремя ответа (макс.)4.99sВремя ответа (суммарно)4.99s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)7.15sВремя ответа (макс.)11.96sВремя ответа (суммарно)64.34s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.75sВремя ответа (макс.)3.75sВремя ответа (суммарно)3.75s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)10.37sВремя ответа (макс.)10.37sВремя ответа (суммарно)10.37s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)10.84sВремя ответа (макс.)10.84sВремя ответа (суммарно)10.84s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)7.01sВремя ответа (макс.)7.01sВремя ответа (суммарно)7.01s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.34sВремя ответа (макс.)9.34sВремя ответа (суммарно)9.34s
Instructions following: 9.5Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.26sВремя ответа (макс.)3.26sВремя ответа (суммарно)3.26s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.91sВремя ответа (макс.)4.23sВремя ответа (суммарно)7.81s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.96sВремя ответа (макс.)11.96sВремя ответа (суммарно)11.96s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 2Время ответа (среднее)16.59sВремя ответа (макс.)100.93sВремя ответа (суммарно)265.39s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.69sВремя ответа (макс.)6.68sВремя ответа (суммарно)14.06s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)19.56sВремя ответа (макс.)19.56sВремя ответа (суммарно)19.56s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.07sВремя ответа (макс.)3.59sВремя ответа (суммарно)6.15s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)64.31sВремя ответа (макс.)100.93sВремя ответа (суммарно)192.94s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.87sВремя ответа (макс.)4.87sВремя ответа (суммарно)4.87s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.04sВремя ответа (макс.)3.44sВремя ответа (суммарно)6.07s
Puzzle Solving: 9.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)5.12sВремя ответа (макс.)8.73sВремя ответа (суммарно)15.37s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.37sВремя ответа (макс.)6.37sВремя ответа (суммарно)6.37s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)52.13sВремя ответа (макс.)163.96sВремя ответа (суммарно)834.16s…
Не соблюдены инструкции: 2Тайм-аут: 1Неверный ответ: 1
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.69sВремя ответа (макс.)10.84sВремя ответа (суммарно)29.06s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)163.96sВремя ответа (макс.)163.96sВремя ответа (суммарно)163.96s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)30.26sВремя ответа (макс.)32.03sВремя ответа (суммарно)60.52s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)79.53sВремя ответа (макс.)95.52sВремя ответа (суммарно)238.59s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)101.41sВремя ответа (макс.)101.41sВремя ответа (суммарно)101.41s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)19.66sВремя ответа (макс.)32.25sВремя ответа (суммарно)39.32s
Puzzle Solving: 8.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)64.61sВремя ответа (макс.)123.57sВремя ответа (суммарно)193.84s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.45sВремя ответа (макс.)7.45sВремя ответа (суммарно)7.45s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 1Время ответа (среднее)68.83sВремя ответа (макс.)280.52sВремя ответа (суммарно)1101.32s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)43.87sВремя ответа (макс.)121.88sВремя ответа (суммарно)131.62s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)280.52sВремя ответа (макс.)280.52sВремя ответа (суммарно)280.52s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.16sВремя ответа (макс.)8.54sВремя ответа (суммарно)14.31s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)127.58sВремя ответа (макс.)133.93sВремя ответа (суммарно)382.74s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.25sВремя ответа (макс.)5.25sВремя ответа (суммарно)5.25s
Instructions following: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)70.07sВремя ответа (макс.)136.53sВремя ответа (суммарно)140.14s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)46.33sВремя ответа (макс.)134.22sВремя ответа (суммарно)139.00s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.73sВремя ответа (макс.)7.73sВремя ответа (суммарно)7.73s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 2Время ответа (среднее)20.05sВремя ответа (макс.)100.41sВремя ответа (суммарно)320.87s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.02sВремя ответа (макс.)6.42sВремя ответа (суммарно)15.06s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)20.57sВремя ответа (макс.)20.57sВремя ответа (суммарно)20.57s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.32sВремя ответа (макс.)5.40sВремя ответа (суммарно)10.64s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)74.27sВремя ответа (макс.)100.41sВремя ответа (суммарно)222.80s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.92sВремя ответа (макс.)4.92sВремя ответа (суммарно)4.92s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.11sВремя ответа (макс.)3.68sВремя ответа (суммарно)6.22s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)9.13sВремя ответа (макс.)18.14sВремя ответа (суммарно)27.39s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)13.28sВремя ответа (макс.)13.28sВремя ответа (суммарно)13.28s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Тайм-аут: 1Время ответа (среднее)29.74sВремя ответа (макс.)119.29sВремя ответа (суммарно)475.83s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.99sВремя ответа (макс.)11.62sВремя ответа (суммарно)20.98s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)107.79sВремя ответа (макс.)107.79sВремя ответа (суммарно)107.79s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)23.41sВремя ответа (макс.)29.79sВремя ответа (суммарно)46.83s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)63.40sВремя ответа (макс.)119.29sВремя ответа (суммарно)190.20s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)34.11sВремя ответа (макс.)34.11sВремя ответа (суммарно)34.11s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.88sВремя ответа (макс.)15.44sВремя ответа (суммарно)19.76s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)17.18sВремя ответа (макс.)31.99sВремя ответа (суммарно)51.55s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.60sВремя ответа (макс.)4.60sВремя ответа (суммарно)4.60s
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)11.23sВремя ответа (макс.)46.35sВремя ответа (суммарно)89.84s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Время ответа (среднее)4.95sВремя ответа (макс.)4.95sВремя ответа (суммарно)4.95s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)46.35sВремя ответа (макс.)46.35sВремя ответа (суммарно)46.35s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)13.90sВремя ответа (макс.)13.90sВремя ответа (суммарно)13.90s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.94sВремя ответа (макс.)4.94sВремя ответа (суммарно)4.94s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.61sВремя ответа (макс.)2.61sВремя ответа (суммарно)2.61s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.80sВремя ответа (макс.)5.22sВремя ответа (суммарно)9.60s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.48sВремя ответа (макс.)7.48sВремя ответа (суммарно)7.48s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 1Время ответа (среднее)3.83sВремя ответа (макс.)14.93sВремя ответа (суммарно)61.25s…
Anti-AI Tricks: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.53sВремя ответа (макс.)3.89sВремя ответа (суммарно)7.58s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)14.93sВремя ответа (макс.)14.93sВремя ответа (суммарно)14.93s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.29sВремя ответа (макс.)2.31sВремя ответа (суммарно)4.59s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)4.21sВремя ответа (макс.)5.86sВремя ответа (суммарно)12.62s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.16sВремя ответа (макс.)3.16sВремя ответа (суммарно)3.16s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.91sВремя ответа (макс.)1.93sВремя ответа (суммарно)3.82s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.58sВремя ответа (макс.)4.41sВремя ответа (суммарно)10.75s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.80sВремя ответа (макс.)3.80sВремя ответа (суммарно)3.80s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Нет ответа: 1Тайм-аут: 1Время ответа (среднее)16.16sВремя ответа (макс.)28.96sВремя ответа (суммарно)129.26s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)22.26sВремя ответа (макс.)22.26sВремя ответа (суммарно)22.26s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)28.96sВремя ответа (макс.)28.96sВремя ответа (суммарно)28.96s
Data parsing and extraction: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)8.90sВремя ответа (макс.)8.90sВремя ответа (суммарно)8.90s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Тайм-аут: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)14.69sВремя ответа (макс.)14.69sВремя ответа (суммарно)14.69s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.25sВремя ответа (макс.)7.25sВремя ответа (суммарно)7.25s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.64sВремя ответа (макс.)16.34sВремя ответа (суммарно)31.27s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.93sВремя ответа (макс.)15.93sВремя ответа (суммарно)15.93s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 1Время ответа (среднее)7.03sВремя ответа (макс.)38.52sВремя ответа (суммарно)112.51s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.97sВремя ответа (макс.)4.78sВремя ответа (суммарно)11.90s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.12sВремя ответа (макс.)9.12sВремя ответа (суммарно)9.12s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.05sВремя ответа (макс.)3.33sВремя ответа (суммарно)6.10s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)17.78sВремя ответа (макс.)38.52sВремя ответа (суммарно)53.33s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)3.20sВремя ответа (макс.)3.20sВремя ответа (суммарно)3.20s
Instructions following: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)5.46sВремя ответа (макс.)6.45sВремя ответа (суммарно)10.92s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.42sВремя ответа (макс.)5.04sВремя ответа (суммарно)13.27s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.68sВремя ответа (макс.)4.68sВремя ответа (суммарно)4.68s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 1Время ответа (среднее)12.35sВремя ответа (макс.)95.48sВремя ответа (суммарно)197.62s…
Anti-AI Tricks: 7.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)6.98sВремя ответа (макс.)15.56sВремя ответа (суммарно)20.95s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)28.44sВремя ответа (макс.)28.44sВремя ответа (суммарно)28.44s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.06sВремя ответа (макс.)5.06sВремя ответа (суммарно)8.11s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)37.34sВремя ответа (макс.)95.48sВремя ответа (суммарно)112.01s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.86sВремя ответа (макс.)4.86sВремя ответа (суммарно)4.86s
Instructions following: 9.5Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.62sВремя ответа (макс.)2.78sВремя ответа (суммарно)5.24s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.94sВремя ответа (макс.)6.33sВремя ответа (суммарно)11.83s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.20sВремя ответа (макс.)6.20sВремя ответа (суммарно)6.20s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 1Время ответа (среднее)3.36sВремя ответа (макс.)11.91sВремя ответа (суммарно)53.84s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.18sВремя ответа (макс.)3.18sВремя ответа (суммарно)6.53s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)11.91sВремя ответа (макс.)11.91sВремя ответа (суммарно)11.91s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.00sВремя ответа (макс.)3.74sВремя ответа (суммарно)5.99s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.36sВремя ответа (макс.)3.51sВремя ответа (суммарно)7.07s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.54sВремя ответа (макс.)1.54sВремя ответа (суммарно)1.54s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.49sВремя ответа (макс.)1.66sВремя ответа (суммарно)2.99s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.76sВремя ответа (макс.)5.08sВремя ответа (суммарно)8.27s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.54sВремя ответа (макс.)9.54sВремя ответа (суммарно)9.54s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 1Тайм-аут: 1Время ответа (среднее)39.48sВремя ответа (макс.)93.11sВремя ответа (суммарно)631.71s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)33.39sВремя ответа (макс.)44.23sВремя ответа (суммарно)100.18s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)93.11sВремя ответа (макс.)93.11sВремя ответа (суммарно)93.11s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)36.09sВремя ответа (макс.)39.12sВремя ответа (суммарно)72.18s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)39.32sВремя ответа (макс.)79.03sВремя ответа (суммарно)117.95s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)31.30sВремя ответа (макс.)31.30sВремя ответа (суммарно)31.30s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)35.78sВремя ответа (макс.)47.30sВремя ответа (суммарно)71.56s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)36.87sВремя ответа (макс.)59.22sВремя ответа (суммарно)110.62s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)34.81sВремя ответа (макс.)34.81sВремя ответа (суммарно)34.81s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Время ответа (среднее)1.75sВремя ответа (макс.)3.56sВремя ответа (суммарно)15.71s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.59sВремя ответа (макс.)1.59sВремя ответа (суммарно)1.59s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.56sВремя ответа (макс.)3.56sВремя ответа (суммарно)3.56s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.41sВремя ответа (макс.)1.41sВремя ответа (суммарно)1.41s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)963msВремя ответа (макс.)963msВремя ответа (суммарно)963ms
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.13sВремя ответа (макс.)1.13sВремя ответа (суммарно)1.13s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.58sВремя ответа (макс.)1.58sВремя ответа (суммарно)1.58s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.06sВремя ответа (макс.)1.06sВремя ответа (суммарно)2.12s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.35sВремя ответа (макс.)3.35sВремя ответа (суммарно)3.35s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Ошибка API: 1Не соблюдены инструкции: 1Время ответа (среднее)25.33sВремя ответа (макс.)96.01sВремя ответа (суммарно)253.33s…
Anti-AI Tricks: 9.7Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)16.79sВремя ответа (макс.)20.83sВремя ответа (суммарно)33.57s
Combined: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)75.68sВремя ответа (макс.)75.68sВремя ответа (суммарно)75.68s
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)96.01sВремя ответа (макс.)96.01sВремя ответа (суммарно)96.01s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.20sВремя ответа (макс.)4.20sВремя ответа (суммарно)4.20s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.28sВремя ответа (макс.)7.37sВремя ответа (суммарно)8.55s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.77sВремя ответа (макс.)5.26sВремя ответа (суммарно)7.55s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)27.78sВремя ответа (макс.)27.78sВремя ответа (суммарно)27.78s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 3Неверный ответ: 3Время ответа (среднее)29.10sВремя ответа (макс.)170.45sВремя ответа (суммарно)290.96s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)18.54sВремя ответа (макс.)32.30sВремя ответа (суммарно)37.07s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)29.57sВремя ответа (макс.)29.57sВремя ответа (суммарно)29.57s
Data parsing and extraction: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.01sВремя ответа (макс.)15.01sВремя ответа (суммарно)15.01s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)170.45sВремя ответа (макс.)170.45sВремя ответа (суммарно)170.45s
General Intelligence: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)6.54sВремя ответа (макс.)6.54sВремя ответа (суммарно)6.54s
Instructions following: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.98sВремя ответа (макс.)4.98sВремя ответа (суммарно)4.98s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)7.72sВремя ответа (макс.)10.60sВремя ответа (суммарно)15.44s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.91sВремя ответа (макс.)11.91sВремя ответа (суммарно)11.91s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 2Время ответа (среднее)5.96sВремя ответа (макс.)18.33sВремя ответа (суммарно)95.30s…
Anti-AI Tricks: 7.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.72sВремя ответа (макс.)7.35sВремя ответа (суммарно)14.17s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.96sВремя ответа (макс.)11.96sВремя ответа (суммарно)11.96s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.21sВремя ответа (макс.)2.52sВремя ответа (суммарно)4.42s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)13.01sВремя ответа (макс.)18.33sВремя ответа (суммарно)39.04s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.99sВремя ответа (макс.)1.99sВремя ответа (суммарно)1.99s
Instructions following: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.29sВремя ответа (макс.)4.18sВремя ответа (суммарно)6.59s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.93sВремя ответа (макс.)3.05sВремя ответа (суммарно)8.78s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)8.36sВремя ответа (макс.)8.36sВремя ответа (суммарно)8.36s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 2Время ответа (среднее)1.33sВремя ответа (макс.)3.39sВремя ответа (суммарно)21.27s…
Anti-AI Tricks: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.16sВремя ответа (макс.)1.47sВремя ответа (суммарно)3.49s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.20sВремя ответа (макс.)3.20sВремя ответа (суммарно)3.20s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.22sВремя ответа (макс.)1.33sВремя ответа (суммарно)2.44s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)942msВремя ответа (макс.)1.12sВремя ответа (суммарно)2.83s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)741msВремя ответа (макс.)741msВремя ответа (суммарно)741ms
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.13sВремя ответа (макс.)1.14sВремя ответа (суммарно)2.27s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)972msВремя ответа (макс.)1.13sВремя ответа (суммарно)2.92s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.39sВремя ответа (макс.)3.39sВремя ответа (суммарно)3.39s
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 4Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)65.09sВремя ответа (макс.)262.83sВремя ответа (суммарно)846.14s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)98.99sВремя ответа (макс.)182.10sВремя ответа (суммарно)296.96s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)262.83sВремя ответа (макс.)262.83sВремя ответа (суммарно)262.83s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)24.27sВремя ответа (макс.)27.52sВремя ответа (суммарно)48.54s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 3Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms
General Intelligence: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)36.65sВремя ответа (макс.)36.65sВремя ответа (суммарно)36.65s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)17.47sВремя ответа (макс.)19.46sВремя ответа (суммарно)34.93s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)25.85sВремя ответа (макс.)32.95sВремя ответа (суммарно)77.55s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)88.68sВремя ответа (макс.)88.68sВремя ответа (суммарно)88.68s
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 3Ошибка API: 1Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)70.81sВремя ответа (макс.)234.29sВремя ответа (суммарно)1132.90s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)71.35sВремя ответа (макс.)168.31sВремя ответа (суммарно)214.06s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)17.78sВремя ответа (макс.)17.78sВремя ответа (суммарно)17.78s
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)56.99sВремя ответа (макс.)80.14sВремя ответа (суммарно)113.98s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)146.50sВремя ответа (макс.)234.29sВремя ответа (суммарно)439.49s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)40.05sВремя ответа (макс.)40.05sВремя ответа (суммарно)40.05s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)63.49sВремя ответа (макс.)111.61sВремя ответа (суммарно)126.98s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 2Время ответа (среднее)56.74sВремя ответа (макс.)115.01sВремя ответа (суммарно)170.23s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)10.33sВремя ответа (макс.)10.33sВремя ответа (суммарно)10.33s
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 3Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)5.57sВремя ответа (макс.)23.84sВремя ответа (суммарно)50.12s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Время ответа (среднее)4.83sВремя ответа (макс.)4.83sВремя ответа (суммарно)4.83s
Combined: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)23.84sВремя ответа (макс.)23.84sВремя ответа (суммарно)23.84s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.43sВремя ответа (макс.)3.43sВремя ответа (суммарно)3.43s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.54sВремя ответа (макс.)3.54sВремя ответа (суммарно)3.54s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.56sВремя ответа (макс.)2.56sВремя ответа (суммарно)2.56s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.96sВремя ответа (макс.)1.96sВремя ответа (суммарно)1.96s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Время ответа (среднее)2.92sВремя ответа (макс.)3.33sВремя ответа (суммарно)5.84s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.11sВремя ответа (макс.)4.11sВремя ответа (суммарно)4.11s
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 4Неверный ответ: 2Время ответа (среднее)22.86sВремя ответа (макс.)83.40sВремя ответа (суммарно)205.71s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Время ответа (среднее)11.88sВремя ответа (макс.)11.88sВремя ответа (суммарно)11.88s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)76.66sВремя ответа (макс.)76.66sВремя ответа (суммарно)76.66s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.37sВремя ответа (макс.)7.37sВремя ответа (суммарно)7.37s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Неверный ответ: 1Время ответа (среднее)83.40sВремя ответа (макс.)83.40sВремя ответа (суммарно)83.40s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.04sВремя ответа (макс.)5.04sВремя ответа (суммарно)5.04s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.43sВремя ответа (макс.)2.43sВремя ответа (суммарно)2.43s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.60sВремя ответа (макс.)4.66sВремя ответа (суммарно)9.20s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.73sВремя ответа (макс.)9.73sВремя ответа (суммарно)9.73s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 3Нет ответа: 1Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)15.33sВремя ответа (макс.)77.80sВремя ответа (суммарно)138.01s…
Не соблюдены инструкции: 3Нет ответа: 1Тайм-аут: 1Неверный ответ: 1
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)14.34sВремя ответа (макс.)14.34sВремя ответа (суммарно)14.34s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)14.06sВремя ответа (макс.)14.06sВремя ответа (суммарно)14.06s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.15sВремя ответа (макс.)3.15sВремя ответа (суммарно)3.15s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)77.80sВремя ответа (макс.)77.80sВремя ответа (суммарно)77.80s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.32sВремя ответа (макс.)4.32sВремя ответа (суммарно)4.32s
Instructions following: 9.5Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.12sВремя ответа (макс.)3.12sВремя ответа (суммарно)3.12s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)5.47sВремя ответа (макс.)6.45sВремя ответа (суммарно)10.94s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)10.30sВремя ответа (макс.)10.30sВремя ответа (суммарно)10.30s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 2Нет ответа: 1Тайм-аут: 1Время ответа (среднее)69.83sВремя ответа (макс.)137.29sВремя ответа (суммарно)628.45s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)85.28sВремя ответа (макс.)85.28sВремя ответа (суммарно)85.28s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)71.37sВремя ответа (макс.)71.37sВремя ответа (суммарно)71.37s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)49.78sВремя ответа (макс.)49.78sВремя ответа (суммарно)49.78s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Тайм-аут: 1Время ответа (среднее)137.29sВремя ответа (макс.)137.29sВремя ответа (суммарно)137.29s
General Intelligence: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)69.73sВремя ответа (макс.)69.73sВремя ответа (суммарно)69.73s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)92.47sВремя ответа (макс.)92.47sВремя ответа (суммарно)92.47s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)45.40sВремя ответа (макс.)82.75sВремя ответа (суммарно)90.79s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)31.74sВремя ответа (макс.)31.74sВремя ответа (суммарно)31.74s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 7Время ответа (среднее)2.65sВремя ответа (макс.)6.65sВремя ответа (суммарно)26.52s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.74sВремя ответа (макс.)2.74sВремя ответа (суммарно)2.74s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)6.65sВремя ответа (макс.)6.65sВремя ответа (суммарно)6.65s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.89sВремя ответа (макс.)1.89sВремя ответа (суммарно)1.89s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.17sВремя ответа (макс.)1.44sВремя ответа (суммарно)2.33s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.26sВремя ответа (макс.)2.26sВремя ответа (суммарно)2.26s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.67sВремя ответа (макс.)1.67sВремя ответа (суммарно)1.67s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.82sВремя ответа (макс.)3.52sВремя ответа (суммарно)5.65s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.33sВремя ответа (макс.)3.33sВремя ответа (суммарно)3.33s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 3Неверный ответ: 2Нет ответа: 1Тайм-аут: 1Время ответа (среднее)26.35sВремя ответа (макс.)121.79sВремя ответа (суммарно)237.11s…
Не соблюдены инструкции: 3Неверный ответ: 2Нет ответа: 1Тайм-аут: 1
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.65sВремя ответа (макс.)5.65sВремя ответа (суммарно)5.65s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)37.64sВремя ответа (макс.)37.64sВремя ответа (суммарно)37.64s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.63sВремя ответа (макс.)6.63sВремя ответа (суммарно)6.63s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)121.79sВремя ответа (макс.)121.79sВремя ответа (суммарно)121.79s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)16.25sВремя ответа (макс.)16.25sВремя ответа (суммарно)16.25s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)5.30sВремя ответа (макс.)5.30sВремя ответа (суммарно)5.30s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)8.08sВремя ответа (макс.)8.38sВремя ответа (суммарно)16.17s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)27.71sВремя ответа (макс.)27.71sВремя ответа (суммарно)27.71s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 7Время ответа (среднее)4.03sВремя ответа (макс.)11.07sВремя ответа (суммарно)36.30s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)3.39sВремя ответа (макс.)3.39sВремя ответа (суммарно)3.39s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.98sВремя ответа (макс.)4.98sВремя ответа (суммарно)4.98s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.78sВремя ответа (макс.)5.78sВремя ответа (суммарно)5.78s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)2.24sВремя ответа (макс.)2.24sВремя ответа (суммарно)2.24s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.27sВремя ответа (макс.)3.27sВремя ответа (суммарно)3.27s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.48sВремя ответа (макс.)1.48sВремя ответа (суммарно)1.48s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.05sВремя ответа (макс.)2.08sВремя ответа (суммарно)4.10s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.07sВремя ответа (макс.)11.07sВремя ответа (суммарно)11.07s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 4Неверный ответ: 3Тайм-аут: 1Время ответа (среднее)25.14sВремя ответа (макс.)88.15sВремя ответа (суммарно)402.29s…
Не соблюдены инструкции: 4Неверный ответ: 3Тайм-аут: 1
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)16.45sВремя ответа (макс.)26.00sВремя ответа (суммарно)49.36s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)88.15sВремя ответа (макс.)88.15sВремя ответа (суммарно)88.15s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)12.58sВремя ответа (макс.)13.87sВремя ответа (суммарно)25.16s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Тайм-аут: 1Время ответа (среднее)44.63sВремя ответа (макс.)82.55sВремя ответа (суммарно)133.89s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)13.50sВремя ответа (макс.)13.50sВремя ответа (суммарно)13.50s
Instructions following: 7.5Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)15.66sВремя ответа (макс.)21.80sВремя ответа (суммарно)31.32s
Puzzle Solving: 4.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)14.09sВремя ответа (макс.)16.81sВремя ответа (суммарно)42.28s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)18.64sВремя ответа (макс.)18.64sВремя ответа (суммарно)18.64s
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 4Неверный ответ: 2Ошибка API: 1Нет ответа: 1Время ответа (среднее)43.93sВремя ответа (макс.)106.00sВремя ответа (суммарно)702.85s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)21.75sВремя ответа (макс.)34.96sВремя ответа (суммарно)65.26s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)75.34sВремя ответа (макс.)75.34sВремя ответа (суммарно)75.34s
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)59.33sВремя ответа (макс.)97.12sВремя ответа (суммарно)118.65s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 2Неверный ответ: 1Время ответа (среднее)88.34sВремя ответа (макс.)106.00sВремя ответа (суммарно)265.01s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)30.30sВремя ответа (макс.)30.30sВремя ответа (суммарно)30.30s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)24.45sВремя ответа (макс.)43.36sВремя ответа (суммарно)48.89s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)31.58sВремя ответа (макс.)60.18sВремя ответа (суммарно)94.75s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.65sВремя ответа (макс.)4.65sВремя ответа (суммарно)4.65s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 6Лишнее форматирование: 2invalid tool call: 1Время ответа (среднее)12.86sВремя ответа (макс.)115.89sВремя ответа (суммарно)205.78s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Неверный ответ: 1Время ответа (среднее)8.79sВремя ответа (макс.)12.26sВремя ответа (суммарно)26.38s
Combined: 8.0Тест считается полностью пройденным, только если все его прогоны успешны.invalid tool call: 1Время ответа (среднее)115.89sВремя ответа (макс.)115.89sВремя ответа (суммарно)115.89s
Data parsing and extraction: 5.4Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)9.42sВремя ответа (макс.)16.20sВремя ответа (суммарно)18.84s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.61sВремя ответа (макс.)1.77sВремя ответа (суммарно)4.83s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.86sВремя ответа (макс.)2.86sВремя ответа (суммарно)2.86s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.52sВремя ответа (макс.)1.99sВремя ответа (суммарно)3.04s
Puzzle Solving: 7.7Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)7.37sВремя ответа (макс.)10.78sВремя ответа (суммарно)22.10s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.85sВремя ответа (макс.)11.85sВремя ответа (суммарно)11.85s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Не соблюдены инструкции: 3Тайм-аут: 1Время ответа (среднее)47.94sВремя ответа (макс.)204.02sВремя ответа (суммарно)431.47s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)37.73sВремя ответа (макс.)37.73sВремя ответа (суммарно)37.73s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)65.96sВремя ответа (макс.)65.96sВремя ответа (суммарно)65.96s
Data parsing and extraction: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)21.42sВремя ответа (макс.)21.42sВремя ответа (суммарно)21.42s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)204.02sВремя ответа (макс.)204.02sВремя ответа (суммарно)204.02s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)17.51sВремя ответа (макс.)17.51sВремя ответа (суммарно)17.51s
Instructions following: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)11.90sВремя ответа (макс.)11.90sВремя ответа (суммарно)11.90s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)19.81sВремя ответа (макс.)21.31sВремя ответа (суммарно)39.63s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)33.30sВремя ответа (макс.)33.30sВремя ответа (суммарно)33.30s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Не соблюдены инструкции: 4Время ответа (среднее)2.36sВремя ответа (макс.)14.63sВремя ответа (суммарно)35.39s…
Anti-AI Tricks: 7.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.30sВремя ответа (макс.)2.46sВремя ответа (суммарно)3.89s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.28sВремя ответа (макс.)3.28sВремя ответа (суммарно)3.28s
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.11sВремя ответа (макс.)1.47sВремя ответа (суммарно)2.21s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)6.48sВремя ответа (макс.)14.63sВремя ответа (суммарно)19.43s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)821msВремя ответа (макс.)821msВремя ответа (суммарно)821ms
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.07sВремя ответа (макс.)1.07sВремя ответа (суммарно)1.07s
Puzzle Solving: 1.7Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 1Время ответа (среднее)934msВремя ответа (макс.)1.18sВремя ответа (суммарно)2.80s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.89sВремя ответа (макс.)1.89sВремя ответа (суммарно)1.89s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 8Не соблюдены инструкции: 1Время ответа (среднее)3.54sВремя ответа (макс.)13.73sВремя ответа (суммарно)56.70s…
Anti-AI Tricks: 2.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.62sВремя ответа (макс.)3.89sВремя ответа (суммарно)4.85s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)6.22sВремя ответа (макс.)6.22sВремя ответа (суммарно)6.22s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.57sВремя ответа (макс.)1.83sВремя ответа (суммарно)3.14s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)905msВремя ответа (макс.)1.10sВремя ответа (суммарно)2.71s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)803msВремя ответа (макс.)803msВремя ответа (суммарно)803ms
Instructions following: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)8.81sВремя ответа (макс.)13.73sВремя ответа (суммарно)17.61s
Puzzle Solving: 1.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)5.90sВремя ответа (макс.)12.19sВремя ответа (суммарно)17.69s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.67sВремя ответа (макс.)3.67sВремя ответа (суммарно)3.67s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Не соблюдены инструкции: 4Время ответа (среднее)16.65sВремя ответа (макс.)50.92sВремя ответа (суммарно)149.88s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)19.76sВремя ответа (макс.)19.76sВремя ответа (суммарно)19.76s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)31.18sВремя ответа (макс.)31.18sВремя ответа (суммарно)31.18s
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.98sВремя ответа (макс.)1.98sВремя ответа (суммарно)1.98s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)50.92sВремя ответа (макс.)50.92sВремя ответа (суммарно)50.92s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)7.90sВремя ответа (макс.)7.90sВремя ответа (суммарно)7.90s
Instructions following: 9.5Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.63sВремя ответа (макс.)7.63sВремя ответа (суммарно)7.63s
Puzzle Solving: 1.7Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 1Время ответа (среднее)11.80sВремя ответа (макс.)12.60sВремя ответа (суммарно)23.61s
Tool Calling: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.91sВремя ответа (макс.)6.91sВремя ответа (суммарно)6.91s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 1Время ответа (среднее)923msВремя ответа (макс.)4.39sВремя ответа (суммарно)14.78s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)668msВремя ответа (макс.)844msВремя ответа (суммарно)2.01s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.39sВремя ответа (макс.)4.39sВремя ответа (суммарно)4.39s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)652msВремя ответа (макс.)660msВремя ответа (суммарно)1.30s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)495msВремя ответа (макс.)642msВремя ответа (суммарно)1.49s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)615msВремя ответа (макс.)615msВремя ответа (суммарно)615ms
Instructions following: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)672msВремя ответа (макс.)785msВремя ответа (суммарно)1.34s
Puzzle Solving: 4.7Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)576msВремя ответа (макс.)700msВремя ответа (суммарно)1.73s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.91sВремя ответа (макс.)1.91sВремя ответа (суммарно)1.91s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 1Время ответа (среднее)3.72sВремя ответа (макс.)46.00sВремя ответа (суммарно)59.46s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)927msВремя ответа (макс.)1.38sВремя ответа (суммарно)2.78s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)46.00sВремя ответа (макс.)46.00sВремя ответа (суммарно)46.00s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.01sВремя ответа (макс.)1.06sВремя ответа (суммарно)2.02s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)465msВремя ответа (макс.)492msВремя ответа (суммарно)1.39s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.12sВремя ответа (макс.)1.12sВремя ответа (суммарно)1.12s
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)585msВремя ответа (макс.)715msВремя ответа (суммарно)1.17s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)982msВремя ответа (макс.)1.36sВремя ответа (суммарно)2.95s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.04sВремя ответа (макс.)2.04sВремя ответа (суммарно)2.04s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 8Не соблюдены инструкции: 2Время ответа (среднее)4.10sВремя ответа (макс.)47.43sВремя ответа (суммарно)65.62s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.76sВремя ответа (макс.)4.39sВремя ответа (суммарно)5.27s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)47.43sВремя ответа (макс.)47.43sВремя ответа (суммарно)47.43s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.16sВремя ответа (макс.)1.42sВремя ответа (суммарно)2.33s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)485msВремя ответа (макс.)549msВремя ответа (суммарно)1.45s
General Intelligence: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.19sВремя ответа (макс.)1.19sВремя ответа (суммарно)1.19s
Instructions following: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)809msВремя ответа (макс.)983msВремя ответа (суммарно)1.62s
Puzzle Solving: 1.7Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)1.34sВремя ответа (макс.)2.25sВремя ответа (суммарно)4.03s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.30sВремя ответа (макс.)2.30sВремя ответа (суммарно)2.30s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 1Время ответа (среднее)1.48sВремя ответа (макс.)2.89sВремя ответа (суммарно)23.64s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.41sВремя ответа (макс.)2.58sВремя ответа (суммарно)4.23s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.89sВремя ответа (макс.)2.89sВремя ответа (суммарно)2.89s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.04sВремя ответа (макс.)1.06sВремя ответа (суммарно)2.08s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.07sВремя ответа (макс.)1.54sВремя ответа (суммарно)3.22s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.78sВремя ответа (макс.)1.78sВремя ответа (суммарно)1.78s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.07sВремя ответа (макс.)1.17sВремя ответа (суммарно)2.15s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.52sВремя ответа (макс.)1.82sВремя ответа (суммарно)4.56s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.75sВремя ответа (макс.)2.75sВремя ответа (суммарно)2.75s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 2Время ответа (среднее)1.75sВремя ответа (макс.)9.39sВремя ответа (суммарно)28.05s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)796msВремя ответа (макс.)1.34sВремя ответа (суммарно)2.39s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)9.39sВремя ответа (макс.)9.39sВремя ответа (суммарно)9.39s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.43sВремя ответа (макс.)1.45sВремя ответа (суммарно)2.86s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)540msВремя ответа (макс.)649msВремя ответа (суммарно)1.62s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.51sВремя ответа (макс.)2.51sВремя ответа (суммарно)2.51s
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)815msВремя ответа (макс.)973msВремя ответа (суммарно)1.63s
Puzzle Solving: 6.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.37sВремя ответа (макс.)2.23sВремя ответа (суммарно)4.12s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.54sВремя ответа (макс.)3.54sВремя ответа (суммарно)3.54s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Не соблюдены инструкции: 3Тайм-аут: 2invalid tool call: 1Время ответа (среднее)43.03sВремя ответа (макс.)237.27sВремя ответа (суммарно)387.25s…
Anti-AI Tricks: 9.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)32.42sВремя ответа (макс.)32.42sВремя ответа (суммарно)32.42s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.invalid tool call: 1Время ответа (среднее)60.39sВремя ответа (макс.)60.39sВремя ответа (суммарно)60.39s
Data parsing and extraction: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)7.48sВремя ответа (макс.)7.48sВремя ответа (суммарно)7.48s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Тайм-аут: 1Время ответа (среднее)237.27sВремя ответа (макс.)237.27sВремя ответа (суммарно)237.27s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)6.63sВремя ответа (макс.)6.63sВремя ответа (суммарно)6.63s
Instructions following: 8.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.64sВремя ответа (макс.)4.64sВремя ответа (суммарно)4.64s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)11.54sВремя ответа (макс.)17.37sВремя ответа (суммарно)23.08s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.35sВремя ответа (макс.)15.35sВремя ответа (суммарно)15.35s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 2Время ответа (среднее)3.15sВремя ответа (макс.)8.91sВремя ответа (суммарно)50.46s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)3.59sВремя ответа (макс.)8.17sВремя ответа (суммарно)10.78s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)8.91sВремя ответа (макс.)8.91sВремя ответа (суммарно)8.91s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.26sВремя ответа (макс.)4.66sВремя ответа (суммарно)6.52s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)877msВремя ответа (макс.)894msВремя ответа (суммарно)2.63s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.86sВремя ответа (макс.)2.86sВремя ответа (суммарно)2.86s
Instructions following: 3.5Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.09sВремя ответа (макс.)1.23sВремя ответа (суммарно)2.19s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)3.30sВремя ответа (макс.)4.81sВремя ответа (суммарно)9.91s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.67sВремя ответа (макс.)6.67sВремя ответа (суммарно)6.67s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 11Время ответа (среднее)11.91sВремя ответа (макс.)42.13sВремя ответа (суммарно)107.16s…
Anti-AI Tricks: 2.7Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)11.38sВремя ответа (макс.)11.38sВремя ответа (суммарно)11.38s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)19.16sВремя ответа (макс.)19.16sВремя ответа (суммарно)19.16s
Data parsing and extraction: 5.4Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)42.13sВремя ответа (макс.)42.13sВремя ответа (суммарно)42.13s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)4.38sВремя ответа (макс.)4.38sВремя ответа (суммарно)4.38s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.00sВремя ответа (макс.)4.00sВремя ответа (суммарно)4.00s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.67sВремя ответа (макс.)2.67sВремя ответа (суммарно)2.67s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)4.73sВремя ответа (макс.)7.81sВремя ответа (суммарно)9.45s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)13.99sВремя ответа (макс.)13.99sВремя ответа (суммарно)13.99s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 11Не соблюдены инструкции: 1Время ответа (среднее)2.07sВремя ответа (макс.)7.58sВремя ответа (суммарно)18.60s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.83sВремя ответа (макс.)1.83sВремя ответа (суммарно)1.83s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)7.58sВремя ответа (макс.)7.58sВремя ответа (суммарно)7.58s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.27sВремя ответа (макс.)1.27sВремя ответа (суммарно)1.27s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)637msВремя ответа (макс.)637msВремя ответа (суммарно)637ms
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)909msВремя ответа (макс.)909msВремя ответа (суммарно)909ms
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.27sВремя ответа (макс.)1.27sВремя ответа (суммарно)1.27s
Puzzle Solving: 2.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.30sВремя ответа (макс.)1.54sВремя ответа (суммарно)2.60s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.51sВремя ответа (макс.)2.51sВремя ответа (суммарно)2.51s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 10Лишнее форматирование: 1Не соблюдены инструкции: 1Время ответа (среднее)11.68sВремя ответа (макс.)45.14sВремя ответа (суммарно)116.76s…
Anti-AI Tricks: 2.3Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)4.39sВремя ответа (макс.)4.39sВремя ответа (суммарно)4.39s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)45.14sВремя ответа (макс.)45.14sВремя ответа (суммарно)45.14s
Data parsing and extraction: 5.4Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.32sВремя ответа (макс.)1.32sВремя ответа (суммарно)1.32s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)962msВремя ответа (макс.)962msВремя ответа (суммарно)962ms
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.34sВремя ответа (макс.)1.34sВремя ответа (суммарно)1.34s
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)7.71sВремя ответа (макс.)14.65sВремя ответа (суммарно)15.42s
Puzzle Solving: 1.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)22.86sВремя ответа (макс.)42.58sВремя ответа (суммарно)45.73s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.47sВремя ответа (макс.)2.47sВремя ответа (суммарно)2.47s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 2invalid tool call: 1Время ответа (среднее)2.99sВремя ответа (макс.)7.05sВремя ответа (суммарно)26.90s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)6.59sВремя ответа (макс.)6.59sВремя ответа (суммарно)6.59s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.invalid tool call: 1Время ответа (среднее)3.22sВремя ответа (макс.)3.22sВремя ответа (суммарно)3.22s
Data parsing and extraction: 5.4Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.82sВремя ответа (макс.)4.82sВремя ответа (суммарно)4.82s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)744msВремя ответа (макс.)744msВремя ответа (суммарно)744ms
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.59sВремя ответа (макс.)1.59sВремя ответа (суммарно)1.59s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)888msВремя ответа (макс.)888msВремя ответа (суммарно)888ms
Puzzle Solving: 3.7Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 1Время ответа (среднее)1.00sВремя ответа (макс.)1.12sВремя ответа (суммарно)2.00s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)7.05sВремя ответа (макс.)7.05sВремя ответа (суммарно)7.05s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 11Не соблюдены инструкции: 1Время ответа (среднее)596msВремя ответа (макс.)1.27sВремя ответа (суммарно)9.54s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)466msВремя ответа (макс.)716msВремя ответа (суммарно)1.40s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)606msВремя ответа (макс.)606msВремя ответа (суммарно)606ms
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)667msВремя ответа (макс.)819msВремя ответа (суммарно)1.33s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)534msВремя ответа (макс.)733msВремя ответа (суммарно)1.60s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)628msВремя ответа (макс.)628msВремя ответа (суммарно)628ms
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)551msВремя ответа (макс.)622msВремя ответа (суммарно)1.10s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)533msВремя ответа (макс.)637msВремя ответа (суммарно)1.60s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.27sВремя ответа (макс.)1.27sВремя ответа (суммарно)1.27s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 7Не соблюдены инструкции: 2Нет ответа: 2invalid tool call: 1Время ответа (среднее)36.84sВремя ответа (макс.)174.55sВремя ответа (суммарно)331.58s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)27.09sВремя ответа (макс.)27.09sВремя ответа (суммарно)27.09s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.invalid tool call: 1Время ответа (среднее)65.57sВремя ответа (макс.)65.57sВремя ответа (суммарно)65.57s
Data parsing and extraction: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)1.51sВремя ответа (макс.)1.51sВремя ответа (суммарно)1.51s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Нет ответа: 1Время ответа (среднее)174.55sВремя ответа (макс.)174.55sВремя ответа (суммарно)174.55s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)18.14sВремя ответа (макс.)18.14sВремя ответа (суммарно)18.14s
Instructions following: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.97sВремя ответа (макс.)2.97sВремя ответа (суммарно)2.97s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)12.90sВремя ответа (макс.)22.33sВремя ответа (суммарно)25.80s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.95sВремя ответа (макс.)15.95sВремя ответа (суммарно)15.95s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 8Не соблюдены инструкции: 5Время ответа (среднее)12.53sВремя ответа (макс.)81.80sВремя ответа (суммарно)125.32s…
Anti-AI Tricks: 1.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)15.28sВремя ответа (макс.)15.28sВремя ответа (суммарно)15.28s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.28sВремя ответа (макс.)4.28sВремя ответа (суммарно)4.28s
Data parsing and extraction: 5.4Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)81.80sВремя ответа (макс.)81.80sВремя ответа (суммарно)81.80s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)638msВремя ответа (макс.)638msВремя ответа (суммарно)638ms
General Intelligence: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.39sВремя ответа (макс.)1.39sВремя ответа (суммарно)1.39s
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)7.34sВремя ответа (макс.)13.67sВремя ответа (суммарно)14.68s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 1Время ответа (среднее)2.30sВремя ответа (макс.)3.80sВремя ответа (суммарно)4.61s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.64sВремя ответа (макс.)2.64sВремя ответа (суммарно)2.64s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 11Не соблюдены инструкции: 2Время ответа (среднее)1.90sВремя ответа (макс.)5.51sВремя ответа (суммарно)17.14s…
Anti-AI Tricks: 1.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)1.73sВремя ответа (макс.)1.73sВремя ответа (суммарно)1.73s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.33sВремя ответа (макс.)3.33sВремя ответа (суммарно)3.33s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)943msВремя ответа (макс.)943msВремя ответа (суммарно)943ms
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.06sВремя ответа (макс.)1.06sВремя ответа (суммарно)1.06s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.08sВремя ответа (макс.)1.08sВремя ответа (суммарно)1.08s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)923msВремя ответа (макс.)923msВремя ответа (суммарно)923ms
Puzzle Solving: 1.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.28sВремя ответа (макс.)1.36sВремя ответа (суммарно)2.56s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)5.51sВремя ответа (макс.)5.51sВремя ответа (суммарно)5.51s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 10Ошибка API: 1Лишнее форматирование: 1Не соблюдены инструкции: 1Время ответа (среднее)2.97sВремя ответа (макс.)19.68sВремя ответа (суммарно)35.60s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.36sВремя ответа (макс.)2.73sВремя ответа (суммарно)4.07s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.87sВремя ответа (макс.)2.87sВремя ответа (суммарно)2.87s
Data parsing and extraction: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Лишнее форматирование: 1Время ответа (среднее)19.68sВремя ответа (макс.)19.68sВремя ответа (суммарно)19.68s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)564msВремя ответа (макс.)564msВремя ответа (суммарно)564ms
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.67sВремя ответа (макс.)1.67sВремя ответа (суммарно)1.67s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)857msВремя ответа (макс.)955msВремя ответа (суммарно)1.71s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.38sВремя ответа (макс.)1.74sВремя ответа (суммарно)2.75s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.28sВремя ответа (макс.)2.28sВремя ответа (суммарно)2.28s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Ошибка API: 4Не соблюдены инструкции: 2Время ответа (среднее)811msВремя ответа (макс.)2.88sВремя ответа (суммарно)11.35s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)471msВремя ответа (макс.)872msВремя ответа (суммарно)1.41s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms
Data parsing and extraction: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)714msВремя ответа (макс.)987msВремя ответа (суммарно)1.43s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Неверный ответ: 1Время ответа (среднее)287msВремя ответа (макс.)334msВремя ответа (суммарно)860ms
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)395msВремя ответа (макс.)395msВремя ответа (суммарно)395ms
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.09sВремя ответа (макс.)1.90sВремя ответа (суммарно)2.18s
Puzzle Solving: 3.3Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.69sВремя ответа (макс.)2.88sВремя ответа (суммарно)5.08s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms