Сравнение benchmark GPT-5.5 vs Laguna Xs.2: GPT-5.5 лидирует по среднему баллу: 9.3 vs 5.5. Laguna Xs.2 имеет более низкую стоимость benchmark: $0.000 vs $0.907. Laguna Xs.2 быстрее: 6.73s vs 9.76s, с долей успешных попыток 85.7% vs 50.9%.
Рекомендуемая модель: GPT-5.5 - У него самый высокий балл в этом сравнении (9.3) и лучший общий баланс стоимости и времени ответа среди всех 2 моделей.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-12
Laguna Xs.2Laguna Xs.2mediumАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.Релиз: 2026-04-28Бесплатно доступно
Оценка
9.3Средний балл по всем бенчмарк-тестам.…
5.5Средний балл по всем бенчмарк-тестам.…
Ранг
#5
#123
Надежность
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
7.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)9.76sВремя ответа (макс.)56.19sВремя ответа (суммарно)204.92sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 6Ошибка API: 4Нет ответа: 2Недопустимый вызов инструмента: 1Время ответа (среднее)6.73sВремя ответа (макс.)29.11sВремя ответа (суммарно)100.98sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
85.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
50.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
6Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
57Всего запусков…
Стоимость за результат
5.035Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.000Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.907Общая стоимость (текущая цена)…
$0.000Общая стоимость (текущая цена)…
Цена входа
$5.000 / 1MЦена входа…
$0.000 / 1MЦена входа…
Цена выхода
$30.000 / 1MЦена выхода…
$0.000 / 1MЦена выхода…
Общее число входных токенов
34,209Общее число входных токенов…
39,481Общее число входных токенов…
Выходные токены
2,046Выходные токены…
54,218Выходные токены…
Токены рассуждений
22,460Токены рассуждений…
0Токены рассуждений…
Время ответа (среднее)
9.76sВремя ответа (среднее)…
6.73sВремя ответа (среднее)…
Время ответа (макс.)
56.19sВремя ответа (макс.)…
29.11sВремя ответа (макс.)…
Время ответа (суммарно)
204.92sВремя ответа (суммарно)…
100.98sВремя ответа (суммарно)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#5 GPT-5.5
low
Cost
$0.068
Time
37.0s
Tokens
2,339 tok
#123 Laguna Xs.2
medium
No showcase result has been generated for this model yet.
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.41sВремя ответа (макс.)6.32sВремя ответа (суммарно)17.64sТест считается полностью пройденным, только если все его прогоны успешны.…
4.41sВремя ответа (среднее)…
606Общее число входных токенов…
238Выходные токены…
1,020Токены рассуждений…
Laguna Xs.2Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
6.9Средний балл по всем бенчмарк-тестам.…
7.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Неверный ответ: 1Время ответа (среднее)2.68sВремя ответа (макс.)3.09sВремя ответа (суммарно)8.04sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.04sВремя ответа (макс.)21.06sВремя ответа (суммарно)45.11sТест считается полностью пройденным, только если все его прогоны успешны.…
15.04sВремя ответа (среднее)…
7,302Общее число входных токенов…
423Выходные токены…
6,402Токены рассуждений…
Laguna Xs.2Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
6.3Средний балл по всем бенчмарк-тестам.…
3.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)14.36sВремя ответа (макс.)14.36sВремя ответа (суммарно)14.36sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.56sВремя ответа (макс.)9.56sВремя ответа (суммарно)9.56sТест считается полностью пройденным, только если все его прогоны успешны.…
9.56sВремя ответа (среднее)…
11,019Общее число входных токенов…
303Выходные токены…
717Токены рассуждений…
Laguna Xs.2Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)15.92sВремя ответа (макс.)15.92sВремя ответа (суммарно)15.92sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.28sВремя ответа (макс.)5.13sВремя ответа (суммарно)6.56sТест считается полностью пройденным, только если все его прогоны успешны.…
3.28sВремя ответа (среднее)…
7,140Общее число входных токенов…
228Выходные токены…
157Токены рассуждений…
Laguna Xs.2Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
7.1Средний балл по всем бенчмарк-тестам.…
5.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)9.34sВремя ответа (макс.)16.71sВремя ответа (суммарно)18.68sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)28.05sВремя ответа (макс.)56.19sВремя ответа (суммарно)84.16sТест считается полностью пройденным, только если все его прогоны успешны.…
28.05sВремя ответа (среднее)…
723Общее число входных токенов…
69Выходные токены…
11,609Токены рассуждений…
Laguna Xs.2Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
4.1Средний балл по всем бенчмарк-тестам.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.5%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Нет ответа: 1Время ответа (среднее)11.12sВремя ответа (макс.)29.11sВремя ответа (суммарно)33.35sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.17sВремя ответа (макс.)5.17sВремя ответа (суммарно)5.17sТест считается полностью пройденным, только если все его прогоны успешны.…
5.17sВремя ответа (среднее)…
477Общее число входных токенов…
133Выходные токены…
245Токены рассуждений…
Laguna Xs.2Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.74sВремя ответа (макс.)3.99sВремя ответа (суммарно)7.48sТест считается полностью пройденным, только если все его прогоны успешны.…
3.74sВремя ответа (среднее)…
660Общее число входных токенов…
93Выходные токены…
415Токены рассуждений…
Laguna Xs.2Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.68sВремя ответа (макс.)2.03sВремя ответа (суммарно)3.36sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.74sВремя ответа (макс.)5.61sВремя ответа (суммарно)14.21sТест считается полностью пройденным, только если все его прогоны успешны.…
4.74sВремя ответа (среднее)…
642Общее число входных токенов…
279Выходные токены…
954Токены рассуждений…
Laguna Xs.2Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.3Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Неверный ответ: 1Время ответа (среднее)1.93sВремя ответа (макс.)1.97sВремя ответа (суммарно)3.87sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.96sВремя ответа (макс.)4.96sВремя ответа (суммарно)4.96sТест считается полностью пройденным, только если все его прогоны успешны.…
4.96sВремя ответа (среднее)…
5,445Общее число входных токенов…
250Выходные токены…
101Токены рассуждений…
Laguna Xs.2Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
4.7Средний балл по всем бенчмарк-тестам.…
1.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Недопустимый вызов инструмента: 1Время ответа (среднее)3.39sВремя ответа (макс.)3.39sВремя ответа (суммарно)3.39sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)10.06sВремя ответа (макс.)10.06sВремя ответа (суммарно)10.06sТест считается полностью пройденным, только если все его прогоны успешны.…
10.06sВремя ответа (среднее)…
195Общее число входных токенов…
30Выходные токены…
840Токены рассуждений…
Laguna Xs.2Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…