Отслеживайте лучшие SOTA AI-модели в лидерборде AI BENCHY — это простой способ узнать, какие модели сейчас лидируют по оценке, качеству рассуждений, надежности и ценности. Сортировать по: Общая стоимость ↓.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06Оценено моделей: 55
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 1Время ответа (среднее)68.83sВремя ответа (макс.)280.52sВремя ответа (суммарно)1101.32s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)43.87sВремя ответа (макс.)121.88sВремя ответа (суммарно)131.62s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)280.52sВремя ответа (макс.)280.52sВремя ответа (суммарно)280.52s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.16sВремя ответа (макс.)8.54sВремя ответа (суммарно)14.31s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)127.58sВремя ответа (макс.)133.93sВремя ответа (суммарно)382.74s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.25sВремя ответа (макс.)5.25sВремя ответа (суммарно)5.25s
Instructions following: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)70.07sВремя ответа (макс.)136.53sВремя ответа (суммарно)140.14s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)46.33sВремя ответа (макс.)134.22sВремя ответа (суммарно)139.00s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.73sВремя ответа (макс.)7.73sВремя ответа (суммарно)7.73s
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 4Неверный ответ: 2Время ответа (среднее)22.86sВремя ответа (макс.)83.40sВремя ответа (суммарно)205.71s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Время ответа (среднее)11.88sВремя ответа (макс.)11.88sВремя ответа (суммарно)11.88s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)76.66sВремя ответа (макс.)76.66sВремя ответа (суммарно)76.66s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.37sВремя ответа (макс.)7.37sВремя ответа (суммарно)7.37s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Неверный ответ: 1Время ответа (среднее)83.40sВремя ответа (макс.)83.40sВремя ответа (суммарно)83.40s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.04sВремя ответа (макс.)5.04sВремя ответа (суммарно)5.04s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.43sВремя ответа (макс.)2.43sВремя ответа (суммарно)2.43s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.60sВремя ответа (макс.)4.66sВремя ответа (суммарно)9.20s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.73sВремя ответа (макс.)9.73sВремя ответа (суммарно)9.73s
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)11.23sВремя ответа (макс.)46.35sВремя ответа (суммарно)89.84s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Время ответа (среднее)4.95sВремя ответа (макс.)4.95sВремя ответа (суммарно)4.95s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)46.35sВремя ответа (макс.)46.35sВремя ответа (суммарно)46.35s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)13.90sВремя ответа (макс.)13.90sВремя ответа (суммарно)13.90s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.94sВремя ответа (макс.)4.94sВремя ответа (суммарно)4.94s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.61sВремя ответа (макс.)2.61sВремя ответа (суммарно)2.61s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.80sВремя ответа (макс.)5.22sВремя ответа (суммарно)9.60s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.48sВремя ответа (макс.)7.48sВремя ответа (суммарно)7.48s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 2Время ответа (среднее)20.05sВремя ответа (макс.)100.41sВремя ответа (суммарно)320.87s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.02sВремя ответа (макс.)6.42sВремя ответа (суммарно)15.06s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)20.57sВремя ответа (макс.)20.57sВремя ответа (суммарно)20.57s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.32sВремя ответа (макс.)5.40sВремя ответа (суммарно)10.64s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)74.27sВремя ответа (макс.)100.41sВремя ответа (суммарно)222.80s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.92sВремя ответа (макс.)4.92sВремя ответа (суммарно)4.92s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.11sВремя ответа (макс.)3.68sВремя ответа (суммарно)6.22s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)9.13sВремя ответа (макс.)18.14sВремя ответа (суммарно)27.39s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)13.28sВремя ответа (макс.)13.28sВремя ответа (суммарно)13.28s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 2Время ответа (среднее)16.59sВремя ответа (макс.)100.93sВремя ответа (суммарно)265.39s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.69sВремя ответа (макс.)6.68sВремя ответа (суммарно)14.06s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)19.56sВремя ответа (макс.)19.56sВремя ответа (суммарно)19.56s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.07sВремя ответа (макс.)3.59sВремя ответа (суммарно)6.15s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)64.31sВремя ответа (макс.)100.93sВремя ответа (суммарно)192.94s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.87sВремя ответа (макс.)4.87sВремя ответа (суммарно)4.87s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.04sВремя ответа (макс.)3.44sВремя ответа (суммарно)6.07s
Puzzle Solving: 9.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)5.12sВремя ответа (макс.)8.73sВремя ответа (суммарно)15.37s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.37sВремя ответа (макс.)6.37sВремя ответа (суммарно)6.37s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)16.60sВремя ответа (макс.)40.61sВремя ответа (суммарно)149.36s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.52sВремя ответа (макс.)9.52sВремя ответа (суммарно)9.52s
Combined: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)40.61sВремя ответа (макс.)40.61sВремя ответа (суммарно)40.61s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.72sВремя ответа (макс.)7.72sВремя ответа (суммарно)7.72s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)32.73sВремя ответа (макс.)32.73sВремя ответа (суммарно)32.73s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.77sВремя ответа (макс.)11.77sВремя ответа (суммарно)11.77s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.56sВремя ответа (макс.)9.56sВремя ответа (суммарно)9.56s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.15sВремя ответа (макс.)8.49sВремя ответа (суммарно)14.30s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)23.15sВремя ответа (макс.)23.15sВремя ответа (суммарно)23.15s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Тайм-аут: 1Время ответа (среднее)29.74sВремя ответа (макс.)119.29sВремя ответа (суммарно)475.83s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.99sВремя ответа (макс.)11.62sВремя ответа (суммарно)20.98s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)107.79sВремя ответа (макс.)107.79sВремя ответа (суммарно)107.79s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)23.41sВремя ответа (макс.)29.79sВремя ответа (суммарно)46.83s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)63.40sВремя ответа (макс.)119.29sВремя ответа (суммарно)190.20s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)34.11sВремя ответа (макс.)34.11sВремя ответа (суммарно)34.11s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.88sВремя ответа (макс.)15.44sВремя ответа (суммарно)19.76s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)17.18sВремя ответа (макс.)31.99sВремя ответа (суммарно)51.55s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.60sВремя ответа (макс.)4.60sВремя ответа (суммарно)4.60s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)52.13sВремя ответа (макс.)163.96sВремя ответа (суммарно)834.16s…
Не соблюдены инструкции: 2Тайм-аут: 1Неверный ответ: 1
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.69sВремя ответа (макс.)10.84sВремя ответа (суммарно)29.06s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)163.96sВремя ответа (макс.)163.96sВремя ответа (суммарно)163.96s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)30.26sВремя ответа (макс.)32.03sВремя ответа (суммарно)60.52s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)79.53sВремя ответа (макс.)95.52sВремя ответа (суммарно)238.59s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)101.41sВремя ответа (макс.)101.41sВремя ответа (суммарно)101.41s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)19.66sВремя ответа (макс.)32.25sВремя ответа (суммарно)39.32s
Puzzle Solving: 8.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)64.61sВремя ответа (макс.)123.57sВремя ответа (суммарно)193.84s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.45sВремя ответа (макс.)7.45sВремя ответа (суммарно)7.45s
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 4Неверный ответ: 2Ошибка API: 1Нет ответа: 1Время ответа (среднее)43.93sВремя ответа (макс.)106.00sВремя ответа (суммарно)702.85s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)21.75sВремя ответа (макс.)34.96sВремя ответа (суммарно)65.26s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)75.34sВремя ответа (макс.)75.34sВремя ответа (суммарно)75.34s
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)59.33sВремя ответа (макс.)97.12sВремя ответа (суммарно)118.65s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 2Неверный ответ: 1Время ответа (среднее)88.34sВремя ответа (макс.)106.00sВремя ответа (суммарно)265.01s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)30.30sВремя ответа (макс.)30.30sВремя ответа (суммарно)30.30s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)24.45sВремя ответа (макс.)43.36sВремя ответа (суммарно)48.89s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)31.58sВремя ответа (макс.)60.18sВремя ответа (суммарно)94.75s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.65sВремя ответа (макс.)4.65sВремя ответа (суммарно)4.65s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 2Время ответа (среднее)5.96sВремя ответа (макс.)18.33sВремя ответа (суммарно)95.30s…
Anti-AI Tricks: 7.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.72sВремя ответа (макс.)7.35sВремя ответа (суммарно)14.17s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.96sВремя ответа (макс.)11.96sВремя ответа (суммарно)11.96s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.21sВремя ответа (макс.)2.52sВремя ответа (суммарно)4.42s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)13.01sВремя ответа (макс.)18.33sВремя ответа (суммарно)39.04s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.99sВремя ответа (макс.)1.99sВремя ответа (суммарно)1.99s
Instructions following: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.29sВремя ответа (макс.)4.18sВремя ответа (суммарно)6.59s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.93sВремя ответа (макс.)3.05sВремя ответа (суммарно)8.78s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)8.36sВремя ответа (макс.)8.36sВремя ответа (суммарно)8.36s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 3Нет ответа: 1Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)15.33sВремя ответа (макс.)77.80sВремя ответа (суммарно)138.01s…
Не соблюдены инструкции: 3Нет ответа: 1Тайм-аут: 1Неверный ответ: 1
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)14.34sВремя ответа (макс.)14.34sВремя ответа (суммарно)14.34s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)14.06sВремя ответа (макс.)14.06sВремя ответа (суммарно)14.06s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.15sВремя ответа (макс.)3.15sВремя ответа (суммарно)3.15s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)77.80sВремя ответа (макс.)77.80sВремя ответа (суммарно)77.80s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.32sВремя ответа (макс.)4.32sВремя ответа (суммарно)4.32s
Instructions following: 9.5Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.12sВремя ответа (макс.)3.12sВремя ответа (суммарно)3.12s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)5.47sВремя ответа (макс.)6.45sВремя ответа (суммарно)10.94s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)10.30sВремя ответа (макс.)10.30sВремя ответа (суммарно)10.30s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 1Время ответа (среднее)12.35sВремя ответа (макс.)95.48sВремя ответа (суммарно)197.62s…
Anti-AI Tricks: 7.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)6.98sВремя ответа (макс.)15.56sВремя ответа (суммарно)20.95s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)28.44sВремя ответа (макс.)28.44sВремя ответа (суммарно)28.44s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.06sВремя ответа (макс.)5.06sВремя ответа (суммарно)8.11s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)37.34sВремя ответа (макс.)95.48sВремя ответа (суммарно)112.01s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.86sВремя ответа (макс.)4.86sВремя ответа (суммарно)4.86s
Instructions following: 9.5Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.62sВремя ответа (макс.)2.78sВремя ответа (суммарно)5.24s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.94sВремя ответа (макс.)6.33sВремя ответа (суммарно)11.83s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.20sВремя ответа (макс.)6.20sВремя ответа (суммарно)6.20s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 1Время ответа (среднее)7.03sВремя ответа (макс.)38.52sВремя ответа (суммарно)112.51s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.97sВремя ответа (макс.)4.78sВремя ответа (суммарно)11.90s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.12sВремя ответа (макс.)9.12sВремя ответа (суммарно)9.12s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.05sВремя ответа (макс.)3.33sВремя ответа (суммарно)6.10s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)17.78sВремя ответа (макс.)38.52sВремя ответа (суммарно)53.33s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)3.20sВремя ответа (макс.)3.20sВремя ответа (суммарно)3.20s
Instructions following: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)5.46sВремя ответа (макс.)6.45sВремя ответа (суммарно)10.92s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.42sВремя ответа (макс.)5.04sВремя ответа (суммарно)13.27s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.68sВремя ответа (макс.)4.68sВремя ответа (суммарно)4.68s
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 3Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)5.57sВремя ответа (макс.)23.84sВремя ответа (суммарно)50.12s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Время ответа (среднее)4.83sВремя ответа (макс.)4.83sВремя ответа (суммарно)4.83s
Combined: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)23.84sВремя ответа (макс.)23.84sВремя ответа (суммарно)23.84s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.43sВремя ответа (макс.)3.43sВремя ответа (суммарно)3.43s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.54sВремя ответа (макс.)3.54sВремя ответа (суммарно)3.54s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.56sВремя ответа (макс.)2.56sВремя ответа (суммарно)2.56s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.96sВремя ответа (макс.)1.96sВремя ответа (суммарно)1.96s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Время ответа (среднее)2.92sВремя ответа (макс.)3.33sВремя ответа (суммарно)5.84s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.11sВремя ответа (макс.)4.11sВремя ответа (суммарно)4.11s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Не соблюдены инструкции: 3Тайм-аут: 2invalid tool call: 1Время ответа (среднее)43.03sВремя ответа (макс.)237.27sВремя ответа (суммарно)387.25s…
Anti-AI Tricks: 9.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)32.42sВремя ответа (макс.)32.42sВремя ответа (суммарно)32.42s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.invalid tool call: 1Время ответа (среднее)60.39sВремя ответа (макс.)60.39sВремя ответа (суммарно)60.39s
Data parsing and extraction: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)7.48sВремя ответа (макс.)7.48sВремя ответа (суммарно)7.48s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Тайм-аут: 1Время ответа (среднее)237.27sВремя ответа (макс.)237.27sВремя ответа (суммарно)237.27s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)6.63sВремя ответа (макс.)6.63sВремя ответа (суммарно)6.63s
Instructions following: 8.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.64sВремя ответа (макс.)4.64sВремя ответа (суммарно)4.64s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)11.54sВремя ответа (макс.)17.37sВремя ответа (суммарно)23.08s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.35sВремя ответа (макс.)15.35sВремя ответа (суммарно)15.35s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 2Нет ответа: 1Тайм-аут: 1Время ответа (среднее)69.83sВремя ответа (макс.)137.29sВремя ответа (суммарно)628.45s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)85.28sВремя ответа (макс.)85.28sВремя ответа (суммарно)85.28s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)71.37sВремя ответа (макс.)71.37sВремя ответа (суммарно)71.37s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)49.78sВремя ответа (макс.)49.78sВремя ответа (суммарно)49.78s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Тайм-аут: 1Время ответа (среднее)137.29sВремя ответа (макс.)137.29sВремя ответа (суммарно)137.29s
General Intelligence: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)69.73sВремя ответа (макс.)69.73sВремя ответа (суммарно)69.73s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)92.47sВремя ответа (макс.)92.47sВремя ответа (суммарно)92.47s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)45.40sВремя ответа (макс.)82.75sВремя ответа (суммарно)90.79s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)31.74sВремя ответа (макс.)31.74sВремя ответа (суммарно)31.74s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)7.15sВремя ответа (макс.)11.96sВремя ответа (суммарно)64.34s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.75sВремя ответа (макс.)3.75sВремя ответа (суммарно)3.75s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)10.37sВремя ответа (макс.)10.37sВремя ответа (суммарно)10.37s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)10.84sВремя ответа (макс.)10.84sВремя ответа (суммарно)10.84s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)7.01sВремя ответа (макс.)7.01sВремя ответа (суммарно)7.01s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.34sВремя ответа (макс.)9.34sВремя ответа (суммарно)9.34s
Instructions following: 9.5Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.26sВремя ответа (макс.)3.26sВремя ответа (суммарно)3.26s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.91sВремя ответа (макс.)4.23sВремя ответа (суммарно)7.81s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.96sВремя ответа (макс.)11.96sВремя ответа (суммарно)11.96s
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 2Неверный ответ: 1Время ответа (среднее)34.45sВремя ответа (макс.)79.86sВремя ответа (суммарно)310.09s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)10.37sВремя ответа (макс.)10.37sВремя ответа (суммарно)10.37s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)46.85sВремя ответа (макс.)46.85sВремя ответа (суммарно)46.85s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)46.91sВремя ответа (макс.)46.91sВремя ответа (суммарно)46.91s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)17.50sВремя ответа (макс.)17.50sВремя ответа (суммарно)17.50s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)79.86sВремя ответа (макс.)79.86sВремя ответа (суммарно)79.86s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)31.93sВремя ответа (макс.)31.93sВремя ответа (суммарно)31.93s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)34.57sВремя ответа (макс.)49.12sВремя ответа (суммарно)69.13s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.54sВремя ответа (макс.)7.54sВремя ответа (суммарно)7.54s
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)12.36sВремя ответа (макс.)50.16sВремя ответа (суммарно)111.21s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.61sВремя ответа (макс.)5.61sВремя ответа (суммарно)5.61s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)50.16sВремя ответа (макс.)50.16sВремя ответа (суммарно)50.16s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.72sВремя ответа (макс.)4.72sВремя ответа (суммарно)4.72s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)21.12sВремя ответа (макс.)21.12sВремя ответа (суммарно)21.12s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.09sВремя ответа (макс.)4.09sВремя ответа (суммарно)4.09s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.10sВремя ответа (макс.)6.10sВремя ответа (суммарно)6.10s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.43sВремя ответа (макс.)4.68sВремя ответа (суммарно)8.85s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)10.55sВремя ответа (макс.)10.55sВремя ответа (суммарно)10.55s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 4Неверный ответ: 3Тайм-аут: 1Время ответа (среднее)25.14sВремя ответа (макс.)88.15sВремя ответа (суммарно)402.29s…
Не соблюдены инструкции: 4Неверный ответ: 3Тайм-аут: 1
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)16.45sВремя ответа (макс.)26.00sВремя ответа (суммарно)49.36s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)88.15sВремя ответа (макс.)88.15sВремя ответа (суммарно)88.15s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)12.58sВремя ответа (макс.)13.87sВремя ответа (суммарно)25.16s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Тайм-аут: 1Время ответа (среднее)44.63sВремя ответа (макс.)82.55sВремя ответа (суммарно)133.89s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)13.50sВремя ответа (макс.)13.50sВремя ответа (суммарно)13.50s
Instructions following: 7.5Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)15.66sВремя ответа (макс.)21.80sВремя ответа (суммарно)31.32s
Puzzle Solving: 4.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)14.09sВремя ответа (макс.)16.81sВремя ответа (суммарно)42.28s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)18.64sВремя ответа (макс.)18.64sВремя ответа (суммарно)18.64s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Нет ответа: 1Тайм-аут: 1Время ответа (среднее)16.16sВремя ответа (макс.)28.96sВремя ответа (суммарно)129.26s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)22.26sВремя ответа (макс.)22.26sВремя ответа (суммарно)22.26s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)28.96sВремя ответа (макс.)28.96sВремя ответа (суммарно)28.96s
Data parsing and extraction: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)8.90sВремя ответа (макс.)8.90sВремя ответа (суммарно)8.90s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Тайм-аут: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)14.69sВремя ответа (макс.)14.69sВремя ответа (суммарно)14.69s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.25sВремя ответа (макс.)7.25sВремя ответа (суммарно)7.25s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.64sВремя ответа (макс.)16.34sВремя ответа (суммарно)31.27s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.93sВремя ответа (макс.)15.93sВремя ответа (суммарно)15.93s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 1Время ответа (среднее)1.48sВремя ответа (макс.)2.89sВремя ответа (суммарно)23.64s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.41sВремя ответа (макс.)2.58sВремя ответа (суммарно)4.23s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.89sВремя ответа (макс.)2.89sВремя ответа (суммарно)2.89s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.04sВремя ответа (макс.)1.06sВремя ответа (суммарно)2.08s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.07sВремя ответа (макс.)1.54sВремя ответа (суммарно)3.22s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.78sВремя ответа (макс.)1.78sВремя ответа (суммарно)1.78s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.07sВремя ответа (макс.)1.17sВремя ответа (суммарно)2.15s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.52sВремя ответа (макс.)1.82sВремя ответа (суммарно)4.56s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.75sВремя ответа (макс.)2.75sВремя ответа (суммарно)2.75s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)6.11sВремя ответа (макс.)14.72sВремя ответа (суммарно)97.74s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.50sВремя ответа (макс.)4.31sВремя ответа (суммарно)10.49s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.27sВремя ответа (макс.)3.27sВремя ответа (суммарно)3.27s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.40sВремя ответа (макс.)14.72sВремя ответа (суммарно)18.80s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)8.05sВремя ответа (макс.)14.40sВремя ответа (суммарно)24.15s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.68sВремя ответа (макс.)3.68sВремя ответа (суммарно)3.68s
Instructions following: 9.5Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.02sВремя ответа (макс.)7.35sВремя ответа (суммарно)14.03s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.11sВремя ответа (макс.)10.27sВремя ответа (суммарно)18.32s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.99sВремя ответа (макс.)4.99sВремя ответа (суммарно)4.99s
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 3Ошибка API: 1Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)70.81sВремя ответа (макс.)234.29sВремя ответа (суммарно)1132.90s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)71.35sВремя ответа (макс.)168.31sВремя ответа (суммарно)214.06s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)17.78sВремя ответа (макс.)17.78sВремя ответа (суммарно)17.78s
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)56.99sВремя ответа (макс.)80.14sВремя ответа (суммарно)113.98s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)146.50sВремя ответа (макс.)234.29sВремя ответа (суммарно)439.49s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)40.05sВремя ответа (макс.)40.05sВремя ответа (суммарно)40.05s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)63.49sВремя ответа (макс.)111.61sВремя ответа (суммарно)126.98s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 2Время ответа (среднее)56.74sВремя ответа (макс.)115.01sВремя ответа (суммарно)170.23s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)10.33sВремя ответа (макс.)10.33sВремя ответа (суммарно)10.33s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Не соблюдены инструкции: 3Тайм-аут: 1Время ответа (среднее)47.94sВремя ответа (макс.)204.02sВремя ответа (суммарно)431.47s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)37.73sВремя ответа (макс.)37.73sВремя ответа (суммарно)37.73s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)65.96sВремя ответа (макс.)65.96sВремя ответа (суммарно)65.96s
Data parsing and extraction: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)21.42sВремя ответа (макс.)21.42sВремя ответа (суммарно)21.42s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)204.02sВремя ответа (макс.)204.02sВремя ответа (суммарно)204.02s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)17.51sВремя ответа (макс.)17.51sВремя ответа (суммарно)17.51s
Instructions following: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)11.90sВремя ответа (макс.)11.90sВремя ответа (суммарно)11.90s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)19.81sВремя ответа (макс.)21.31sВремя ответа (суммарно)39.63s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)33.30sВремя ответа (макс.)33.30sВремя ответа (суммарно)33.30s
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 3Неверный ответ: 2Нет ответа: 1Тайм-аут: 1Время ответа (среднее)26.35sВремя ответа (макс.)121.79sВремя ответа (суммарно)237.11s…
Не соблюдены инструкции: 3Неверный ответ: 2Нет ответа: 1Тайм-аут: 1
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.65sВремя ответа (макс.)5.65sВремя ответа (суммарно)5.65s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)37.64sВремя ответа (макс.)37.64sВремя ответа (суммарно)37.64s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.63sВремя ответа (макс.)6.63sВремя ответа (суммарно)6.63s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)121.79sВремя ответа (макс.)121.79sВремя ответа (суммарно)121.79s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)16.25sВремя ответа (макс.)16.25sВремя ответа (суммарно)16.25s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)5.30sВремя ответа (макс.)5.30sВремя ответа (суммарно)5.30s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)8.08sВремя ответа (макс.)8.38sВремя ответа (суммарно)16.17s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)27.71sВремя ответа (макс.)27.71sВремя ответа (суммарно)27.71s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 1Время ответа (среднее)3.83sВремя ответа (макс.)14.93sВремя ответа (суммарно)61.25s…
Anti-AI Tricks: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.53sВремя ответа (макс.)3.89sВремя ответа (суммарно)7.58s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)14.93sВремя ответа (макс.)14.93sВремя ответа (суммарно)14.93s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.29sВремя ответа (макс.)2.31sВремя ответа (суммарно)4.59s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)4.21sВремя ответа (макс.)5.86sВремя ответа (суммарно)12.62s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.16sВремя ответа (макс.)3.16sВремя ответа (суммарно)3.16s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.91sВремя ответа (макс.)1.93sВремя ответа (суммарно)3.82s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.58sВремя ответа (макс.)4.41sВремя ответа (суммарно)10.75s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.80sВремя ответа (макс.)3.80sВремя ответа (суммарно)3.80s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Не соблюдены инструкции: 4Время ответа (среднее)2.36sВремя ответа (макс.)14.63sВремя ответа (суммарно)35.39s…
Anti-AI Tricks: 7.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.30sВремя ответа (макс.)2.46sВремя ответа (суммарно)3.89s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.28sВремя ответа (макс.)3.28sВремя ответа (суммарно)3.28s
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.11sВремя ответа (макс.)1.47sВремя ответа (суммарно)2.21s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)6.48sВремя ответа (макс.)14.63sВремя ответа (суммарно)19.43s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)821msВремя ответа (макс.)821msВремя ответа (суммарно)821ms
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.07sВремя ответа (макс.)1.07sВремя ответа (суммарно)1.07s
Puzzle Solving: 1.7Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 1Время ответа (среднее)934msВремя ответа (макс.)1.18sВремя ответа (суммарно)2.80s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.89sВремя ответа (макс.)1.89sВремя ответа (суммарно)1.89s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 7Не соблюдены инструкции: 2Нет ответа: 2invalid tool call: 1Время ответа (среднее)36.84sВремя ответа (макс.)174.55sВремя ответа (суммарно)331.58s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)27.09sВремя ответа (макс.)27.09sВремя ответа (суммарно)27.09s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.invalid tool call: 1Время ответа (среднее)65.57sВремя ответа (макс.)65.57sВремя ответа (суммарно)65.57s
Data parsing and extraction: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)1.51sВремя ответа (макс.)1.51sВремя ответа (суммарно)1.51s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Нет ответа: 1Время ответа (среднее)174.55sВремя ответа (макс.)174.55sВремя ответа (суммарно)174.55s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)18.14sВремя ответа (макс.)18.14sВремя ответа (суммарно)18.14s
Instructions following: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.97sВремя ответа (макс.)2.97sВремя ответа (суммарно)2.97s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)12.90sВремя ответа (макс.)22.33sВремя ответа (суммарно)25.80s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.95sВремя ответа (макс.)15.95sВремя ответа (суммарно)15.95s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Ошибка API: 1Не соблюдены инструкции: 1Время ответа (среднее)25.33sВремя ответа (макс.)96.01sВремя ответа (суммарно)253.33s…
Anti-AI Tricks: 9.7Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)16.79sВремя ответа (макс.)20.83sВремя ответа (суммарно)33.57s
Combined: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)75.68sВремя ответа (макс.)75.68sВремя ответа (суммарно)75.68s
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)96.01sВремя ответа (макс.)96.01sВремя ответа (суммарно)96.01s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.20sВремя ответа (макс.)4.20sВремя ответа (суммарно)4.20s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.28sВремя ответа (макс.)7.37sВремя ответа (суммарно)8.55s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.77sВремя ответа (макс.)5.26sВремя ответа (суммарно)7.55s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)27.78sВремя ответа (макс.)27.78sВремя ответа (суммарно)27.78s
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 4Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)65.09sВремя ответа (макс.)262.83sВремя ответа (суммарно)846.14s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)98.99sВремя ответа (макс.)182.10sВремя ответа (суммарно)296.96s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)262.83sВремя ответа (макс.)262.83sВремя ответа (суммарно)262.83s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)24.27sВремя ответа (макс.)27.52sВремя ответа (суммарно)48.54s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 3Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms
General Intelligence: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)36.65sВремя ответа (макс.)36.65sВремя ответа (суммарно)36.65s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)17.47sВремя ответа (макс.)19.46sВремя ответа (суммарно)34.93s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)25.85sВремя ответа (макс.)32.95sВремя ответа (суммарно)77.55s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)88.68sВремя ответа (макс.)88.68sВремя ответа (суммарно)88.68s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Не соблюдены инструкции: 1Тайм-аут: 1Время ответа (среднее)39.48sВремя ответа (макс.)93.11sВремя ответа (суммарно)631.71s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)33.39sВремя ответа (макс.)44.23sВремя ответа (суммарно)100.18s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)93.11sВремя ответа (макс.)93.11sВремя ответа (суммарно)93.11s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)36.09sВремя ответа (макс.)39.12sВремя ответа (суммарно)72.18s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)39.32sВремя ответа (макс.)79.03sВремя ответа (суммарно)117.95s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)31.30sВремя ответа (макс.)31.30sВремя ответа (суммарно)31.30s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)35.78sВремя ответа (макс.)47.30sВремя ответа (суммарно)71.56s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)36.87sВремя ответа (макс.)59.22sВремя ответа (суммарно)110.62s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)34.81sВремя ответа (макс.)34.81sВремя ответа (суммарно)34.81s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 10Ошибка API: 1Лишнее форматирование: 1Не соблюдены инструкции: 1Время ответа (среднее)2.97sВремя ответа (макс.)19.68sВремя ответа (суммарно)35.60s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.36sВремя ответа (макс.)2.73sВремя ответа (суммарно)4.07s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.87sВремя ответа (макс.)2.87sВремя ответа (суммарно)2.87s
Data parsing and extraction: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Лишнее форматирование: 1Время ответа (среднее)19.68sВремя ответа (макс.)19.68sВремя ответа (суммарно)19.68s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)564msВремя ответа (макс.)564msВремя ответа (суммарно)564ms
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.67sВремя ответа (макс.)1.67sВремя ответа (суммарно)1.67s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)857msВремя ответа (макс.)955msВремя ответа (суммарно)1.71s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.38sВремя ответа (макс.)1.74sВремя ответа (суммарно)2.75s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.28sВремя ответа (макс.)2.28sВремя ответа (суммарно)2.28s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 1Время ответа (среднее)3.72sВремя ответа (макс.)46.00sВремя ответа (суммарно)59.46s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)927msВремя ответа (макс.)1.38sВремя ответа (суммарно)2.78s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)46.00sВремя ответа (макс.)46.00sВремя ответа (суммарно)46.00s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.01sВремя ответа (макс.)1.06sВремя ответа (суммарно)2.02s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)465msВремя ответа (макс.)492msВремя ответа (суммарно)1.39s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.12sВремя ответа (макс.)1.12sВремя ответа (суммарно)1.12s
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)585msВремя ответа (макс.)715msВремя ответа (суммарно)1.17s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)982msВремя ответа (макс.)1.36sВремя ответа (суммарно)2.95s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.04sВремя ответа (макс.)2.04sВремя ответа (суммарно)2.04s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 1Время ответа (среднее)3.36sВремя ответа (макс.)11.91sВремя ответа (суммарно)53.84s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.18sВремя ответа (макс.)3.18sВремя ответа (суммарно)6.53s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)11.91sВремя ответа (макс.)11.91sВремя ответа (суммарно)11.91s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.00sВремя ответа (макс.)3.74sВремя ответа (суммарно)5.99s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.36sВремя ответа (макс.)3.51sВремя ответа (суммарно)7.07s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.54sВремя ответа (макс.)1.54sВремя ответа (суммарно)1.54s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.49sВремя ответа (макс.)1.66sВремя ответа (суммарно)2.99s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.76sВремя ответа (макс.)5.08sВремя ответа (суммарно)8.27s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.54sВремя ответа (макс.)9.54sВремя ответа (суммарно)9.54s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Время ответа (среднее)1.75sВремя ответа (макс.)3.56sВремя ответа (суммарно)15.71s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.59sВремя ответа (макс.)1.59sВремя ответа (суммарно)1.59s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.56sВремя ответа (макс.)3.56sВремя ответа (суммарно)3.56s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.41sВремя ответа (макс.)1.41sВремя ответа (суммарно)1.41s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)963msВремя ответа (макс.)963msВремя ответа (суммарно)963ms
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.13sВремя ответа (макс.)1.13sВремя ответа (суммарно)1.13s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.58sВремя ответа (макс.)1.58sВремя ответа (суммарно)1.58s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.06sВремя ответа (макс.)1.06sВремя ответа (суммарно)2.12s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.35sВремя ответа (макс.)3.35sВремя ответа (суммарно)3.35s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 7Время ответа (среднее)4.03sВремя ответа (макс.)11.07sВремя ответа (суммарно)36.30s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)3.39sВремя ответа (макс.)3.39sВремя ответа (суммарно)3.39s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.98sВремя ответа (макс.)4.98sВремя ответа (суммарно)4.98s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.78sВремя ответа (макс.)5.78sВремя ответа (суммарно)5.78s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)2.24sВремя ответа (макс.)2.24sВремя ответа (суммарно)2.24s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.27sВремя ответа (макс.)3.27sВремя ответа (суммарно)3.27s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.48sВремя ответа (макс.)1.48sВремя ответа (суммарно)1.48s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.05sВремя ответа (макс.)2.08sВремя ответа (суммарно)4.10s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.07sВремя ответа (макс.)11.07sВремя ответа (суммарно)11.07s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 7Время ответа (среднее)2.65sВремя ответа (макс.)6.65sВремя ответа (суммарно)26.52s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.74sВремя ответа (макс.)2.74sВремя ответа (суммарно)2.74s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)6.65sВремя ответа (макс.)6.65sВремя ответа (суммарно)6.65s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.89sВремя ответа (макс.)1.89sВремя ответа (суммарно)1.89s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.17sВремя ответа (макс.)1.44sВремя ответа (суммарно)2.33s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.26sВремя ответа (макс.)2.26sВремя ответа (суммарно)2.26s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.67sВремя ответа (макс.)1.67sВремя ответа (суммарно)1.67s
Puzzle Solving: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.82sВремя ответа (макс.)3.52sВремя ответа (суммарно)5.65s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.33sВремя ответа (макс.)3.33sВремя ответа (суммарно)3.33s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 6Лишнее форматирование: 2invalid tool call: 1Время ответа (среднее)12.86sВремя ответа (макс.)115.89sВремя ответа (суммарно)205.78s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Неверный ответ: 1Время ответа (среднее)8.79sВремя ответа (макс.)12.26sВремя ответа (суммарно)26.38s
Combined: 8.0Тест считается полностью пройденным, только если все его прогоны успешны.invalid tool call: 1Время ответа (среднее)115.89sВремя ответа (макс.)115.89sВремя ответа (суммарно)115.89s
Data parsing and extraction: 5.4Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)9.42sВремя ответа (макс.)16.20sВремя ответа (суммарно)18.84s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.61sВремя ответа (макс.)1.77sВремя ответа (суммарно)4.83s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.86sВремя ответа (макс.)2.86sВремя ответа (суммарно)2.86s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.52sВремя ответа (макс.)1.99sВремя ответа (суммарно)3.04s
Puzzle Solving: 7.7Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)7.37sВремя ответа (макс.)10.78sВремя ответа (суммарно)22.10s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.85sВремя ответа (макс.)11.85sВремя ответа (суммарно)11.85s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 2Время ответа (среднее)1.75sВремя ответа (макс.)9.39sВремя ответа (суммарно)28.05s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)796msВремя ответа (макс.)1.34sВремя ответа (суммарно)2.39s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)9.39sВремя ответа (макс.)9.39sВремя ответа (суммарно)9.39s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.43sВремя ответа (макс.)1.45sВремя ответа (суммарно)2.86s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)540msВремя ответа (макс.)649msВремя ответа (суммарно)1.62s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.51sВремя ответа (макс.)2.51sВремя ответа (суммарно)2.51s
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)815msВремя ответа (макс.)973msВремя ответа (суммарно)1.63s
Puzzle Solving: 6.3Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.37sВремя ответа (макс.)2.23sВремя ответа (суммарно)4.12s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.54sВремя ответа (макс.)3.54sВремя ответа (суммарно)3.54s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 11Время ответа (среднее)11.91sВремя ответа (макс.)42.13sВремя ответа (суммарно)107.16s…
Anti-AI Tricks: 2.7Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)11.38sВремя ответа (макс.)11.38sВремя ответа (суммарно)11.38s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)19.16sВремя ответа (макс.)19.16sВремя ответа (суммарно)19.16s
Data parsing and extraction: 5.4Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)42.13sВремя ответа (макс.)42.13sВремя ответа (суммарно)42.13s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)4.38sВремя ответа (макс.)4.38sВремя ответа (суммарно)4.38s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.00sВремя ответа (макс.)4.00sВремя ответа (суммарно)4.00s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.67sВремя ответа (макс.)2.67sВремя ответа (суммарно)2.67s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)4.73sВремя ответа (макс.)7.81sВремя ответа (суммарно)9.45s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)13.99sВремя ответа (макс.)13.99sВремя ответа (суммарно)13.99s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Не соблюдены инструкции: 2Время ответа (среднее)1.33sВремя ответа (макс.)3.39sВремя ответа (суммарно)21.27s…
Anti-AI Tricks: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.16sВремя ответа (макс.)1.47sВремя ответа (суммарно)3.49s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.20sВремя ответа (макс.)3.20sВремя ответа (суммарно)3.20s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.22sВремя ответа (макс.)1.33sВремя ответа (суммарно)2.44s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)942msВремя ответа (макс.)1.12sВремя ответа (суммарно)2.83s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)741msВремя ответа (макс.)741msВремя ответа (суммарно)741ms
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.13sВремя ответа (макс.)1.14sВремя ответа (суммарно)2.27s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)972msВремя ответа (макс.)1.13sВремя ответа (суммарно)2.92s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.39sВремя ответа (макс.)3.39sВремя ответа (суммарно)3.39s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 8Не соблюдены инструкции: 2Время ответа (среднее)4.10sВремя ответа (макс.)47.43sВремя ответа (суммарно)65.62s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.76sВремя ответа (макс.)4.39sВремя ответа (суммарно)5.27s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)47.43sВремя ответа (макс.)47.43sВремя ответа (суммарно)47.43s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.16sВремя ответа (макс.)1.42sВремя ответа (суммарно)2.33s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)485msВремя ответа (макс.)549msВремя ответа (суммарно)1.45s
General Intelligence: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.19sВремя ответа (макс.)1.19sВремя ответа (суммарно)1.19s
Instructions following: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)809msВремя ответа (макс.)983msВремя ответа (суммарно)1.62s
Puzzle Solving: 1.7Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)1.34sВремя ответа (макс.)2.25sВремя ответа (суммарно)4.03s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.30sВремя ответа (макс.)2.30sВремя ответа (суммарно)2.30s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 1Время ответа (среднее)923msВремя ответа (макс.)4.39sВремя ответа (суммарно)14.78s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)668msВремя ответа (макс.)844msВремя ответа (суммарно)2.01s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.39sВремя ответа (макс.)4.39sВремя ответа (суммарно)4.39s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)652msВремя ответа (макс.)660msВремя ответа (суммарно)1.30s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)495msВремя ответа (макс.)642msВремя ответа (суммарно)1.49s
General Intelligence: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)615msВремя ответа (макс.)615msВремя ответа (суммарно)615ms
Instructions following: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)672msВремя ответа (макс.)785msВремя ответа (суммарно)1.34s
Puzzle Solving: 4.7Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)576msВремя ответа (макс.)700msВремя ответа (суммарно)1.73s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.91sВремя ответа (макс.)1.91sВремя ответа (суммарно)1.91s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Не соблюдены инструкции: 4Время ответа (среднее)16.65sВремя ответа (макс.)50.92sВремя ответа (суммарно)149.88s…
Anti-AI Tricks: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)19.76sВремя ответа (макс.)19.76sВремя ответа (суммарно)19.76s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)31.18sВремя ответа (макс.)31.18sВремя ответа (суммарно)31.18s
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.98sВремя ответа (макс.)1.98sВремя ответа (суммарно)1.98s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)50.92sВремя ответа (макс.)50.92sВремя ответа (суммарно)50.92s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)7.90sВремя ответа (макс.)7.90sВремя ответа (суммарно)7.90s
Instructions following: 9.5Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.63sВремя ответа (макс.)7.63sВремя ответа (суммарно)7.63s
Puzzle Solving: 1.7Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 1Время ответа (среднее)11.80sВремя ответа (макс.)12.60sВремя ответа (суммарно)23.61s
Tool Calling: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.91sВремя ответа (макс.)6.91sВремя ответа (суммарно)6.91s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 11Не соблюдены инструкции: 2Время ответа (среднее)1.90sВремя ответа (макс.)5.51sВремя ответа (суммарно)17.14s…
Anti-AI Tricks: 1.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)1.73sВремя ответа (макс.)1.73sВремя ответа (суммарно)1.73s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.33sВремя ответа (макс.)3.33sВремя ответа (суммарно)3.33s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)943msВремя ответа (макс.)943msВремя ответа (суммарно)943ms
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.06sВремя ответа (макс.)1.06sВремя ответа (суммарно)1.06s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.08sВремя ответа (макс.)1.08sВремя ответа (суммарно)1.08s
Instructions following: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)923msВремя ответа (макс.)923msВремя ответа (суммарно)923ms
Puzzle Solving: 1.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.28sВремя ответа (макс.)1.36sВремя ответа (суммарно)2.56s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)5.51sВремя ответа (макс.)5.51sВремя ответа (суммарно)5.51s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 10Лишнее форматирование: 1Не соблюдены инструкции: 1Время ответа (среднее)11.68sВремя ответа (макс.)45.14sВремя ответа (суммарно)116.76s…
Anti-AI Tricks: 2.3Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)4.39sВремя ответа (макс.)4.39sВремя ответа (суммарно)4.39s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)45.14sВремя ответа (макс.)45.14sВремя ответа (суммарно)45.14s
Data parsing and extraction: 5.4Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.32sВремя ответа (макс.)1.32sВремя ответа (суммарно)1.32s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)962msВремя ответа (макс.)962msВремя ответа (суммарно)962ms
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.34sВремя ответа (макс.)1.34sВремя ответа (суммарно)1.34s
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)7.71sВремя ответа (макс.)14.65sВремя ответа (суммарно)15.42s
Puzzle Solving: 1.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)22.86sВремя ответа (макс.)42.58sВремя ответа (суммарно)45.73s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.47sВремя ответа (макс.)2.47sВремя ответа (суммарно)2.47s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 8Не соблюдены инструкции: 5Время ответа (среднее)12.53sВремя ответа (макс.)81.80sВремя ответа (суммарно)125.32s…
Anti-AI Tricks: 1.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)15.28sВремя ответа (макс.)15.28sВремя ответа (суммарно)15.28s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.28sВремя ответа (макс.)4.28sВремя ответа (суммарно)4.28s
Data parsing and extraction: 5.4Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)81.80sВремя ответа (макс.)81.80sВремя ответа (суммарно)81.80s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)638msВремя ответа (макс.)638msВремя ответа (суммарно)638ms
General Intelligence: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)1.39sВремя ответа (макс.)1.39sВремя ответа (суммарно)1.39s
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)7.34sВремя ответа (макс.)13.67sВремя ответа (суммарно)14.68s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 1Время ответа (среднее)2.30sВремя ответа (макс.)3.80sВремя ответа (суммарно)4.61s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.64sВремя ответа (макс.)2.64sВремя ответа (суммарно)2.64s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 11Не соблюдены инструкции: 1Время ответа (среднее)596msВремя ответа (макс.)1.27sВремя ответа (суммарно)9.54s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)466msВремя ответа (макс.)716msВремя ответа (суммарно)1.40s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)606msВремя ответа (макс.)606msВремя ответа (суммарно)606ms
Data parsing and extraction: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)667msВремя ответа (макс.)819msВремя ответа (суммарно)1.33s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)534msВремя ответа (макс.)733msВремя ответа (суммарно)1.60s
General Intelligence: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)628msВремя ответа (макс.)628msВремя ответа (суммарно)628ms
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)551msВремя ответа (макс.)622msВремя ответа (суммарно)1.10s
Puzzle Solving: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)533msВремя ответа (макс.)637msВремя ответа (суммарно)1.60s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.27sВремя ответа (макс.)1.27sВремя ответа (суммарно)1.27s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 8Не соблюдены инструкции: 1Время ответа (среднее)3.54sВремя ответа (макс.)13.73sВремя ответа (суммарно)56.70s…
Anti-AI Tricks: 2.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.62sВремя ответа (макс.)3.89sВремя ответа (суммарно)4.85s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)6.22sВремя ответа (макс.)6.22sВремя ответа (суммарно)6.22s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.57sВремя ответа (макс.)1.83sВремя ответа (суммарно)3.14s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)905msВремя ответа (макс.)1.10sВремя ответа (суммарно)2.71s
General Intelligence: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)803msВремя ответа (макс.)803msВремя ответа (суммарно)803ms
Instructions following: 5.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)8.81sВремя ответа (макс.)13.73sВремя ответа (суммарно)17.61s
Puzzle Solving: 1.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)5.90sВремя ответа (макс.)12.19sВремя ответа (суммарно)17.69s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.67sВремя ответа (макс.)3.67sВремя ответа (суммарно)3.67s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 11Не соблюдены инструкции: 1Время ответа (среднее)2.07sВремя ответа (макс.)7.58sВремя ответа (суммарно)18.60s…
Anti-AI Tricks: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.83sВремя ответа (макс.)1.83sВремя ответа (суммарно)1.83s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)7.58sВремя ответа (макс.)7.58sВремя ответа (суммарно)7.58s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.27sВремя ответа (макс.)1.27sВремя ответа (суммарно)1.27s
Domain specific: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)637msВремя ответа (макс.)637msВремя ответа (суммарно)637ms
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)909msВремя ответа (макс.)909msВремя ответа (суммарно)909ms
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.27sВремя ответа (макс.)1.27sВремя ответа (суммарно)1.27s
Puzzle Solving: 2.3Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.30sВремя ответа (макс.)1.54sВремя ответа (суммарно)2.60s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.51sВремя ответа (макс.)2.51sВремя ответа (суммарно)2.51s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 2invalid tool call: 1Время ответа (среднее)2.99sВремя ответа (макс.)7.05sВремя ответа (суммарно)26.90s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)6.59sВремя ответа (макс.)6.59sВремя ответа (суммарно)6.59s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.invalid tool call: 1Время ответа (среднее)3.22sВремя ответа (макс.)3.22sВремя ответа (суммарно)3.22s
Data parsing and extraction: 5.4Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.82sВремя ответа (макс.)4.82sВремя ответа (суммарно)4.82s
Domain specific: 7.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)744msВремя ответа (макс.)744msВремя ответа (суммарно)744ms
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.59sВремя ответа (макс.)1.59sВремя ответа (суммарно)1.59s
Instructions following: 5.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)888msВремя ответа (макс.)888msВремя ответа (суммарно)888ms
Puzzle Solving: 3.7Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 2Неверный ответ: 1Время ответа (среднее)1.00sВремя ответа (макс.)1.12sВремя ответа (суммарно)2.00s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)7.05sВремя ответа (макс.)7.05sВремя ответа (суммарно)7.05s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Ошибка API: 4Не соблюдены инструкции: 2Время ответа (среднее)811msВремя ответа (макс.)2.88sВремя ответа (суммарно)11.35s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)471msВремя ответа (макс.)872msВремя ответа (суммарно)1.41s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms
Data parsing and extraction: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)714msВремя ответа (макс.)987msВремя ответа (суммарно)1.43s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Неверный ответ: 1Время ответа (среднее)287msВремя ответа (макс.)334msВремя ответа (суммарно)860ms
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)395msВремя ответа (макс.)395msВремя ответа (суммарно)395ms
Instructions following: 4.5Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.09sВремя ответа (макс.)1.90sВремя ответа (суммарно)2.18s
Puzzle Solving: 3.3Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.69sВремя ответа (макс.)2.88sВремя ответа (суммарно)5.08s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0ms
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 3Неверный ответ: 3Время ответа (среднее)29.10sВремя ответа (макс.)170.45sВремя ответа (суммарно)290.96s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)18.54sВремя ответа (макс.)32.30sВремя ответа (суммарно)37.07s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)29.57sВремя ответа (макс.)29.57sВремя ответа (суммарно)29.57s
Data parsing and extraction: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.01sВремя ответа (макс.)15.01sВремя ответа (суммарно)15.01s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)170.45sВремя ответа (макс.)170.45sВремя ответа (суммарно)170.45s
General Intelligence: 6.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)6.54sВремя ответа (макс.)6.54sВремя ответа (суммарно)6.54s
Instructions following: 9.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)4.98sВремя ответа (макс.)4.98sВремя ответа (суммарно)4.98s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)7.72sВремя ответа (макс.)10.60sВремя ответа (суммарно)15.44s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.91sВремя ответа (макс.)11.91sВремя ответа (суммарно)11.91s
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 2Время ответа (среднее)3.15sВремя ответа (макс.)8.91sВремя ответа (суммарно)50.46s…
Anti-AI Tricks: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)3.59sВремя ответа (макс.)8.17sВремя ответа (суммарно)10.78s
Combined: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)8.91sВремя ответа (макс.)8.91sВремя ответа (суммарно)8.91s
Data parsing and extraction: 9.9Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.26sВремя ответа (макс.)4.66sВремя ответа (суммарно)6.52s
Domain specific: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)877msВремя ответа (макс.)894msВремя ответа (суммарно)2.63s
General Intelligence: 3.0Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.86sВремя ответа (макс.)2.86sВремя ответа (суммарно)2.86s
Instructions following: 3.5Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)1.09sВремя ответа (макс.)1.23sВремя ответа (суммарно)2.19s
Puzzle Solving: 4.0Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)3.30sВремя ответа (макс.)4.81sВремя ответа (суммарно)9.91s
Tool Calling: 10.0Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.67sВремя ответа (макс.)6.67sВремя ответа (суммарно)6.67s