Сравнение benchmark DeepSeek V4 Pro vs Qwen3.6 Plus: DeepSeek V4 Pro лидирует по среднему баллу: 8.1 vs 7.8. DeepSeek V4 Pro имеет более низкую стоимость benchmark: $0.098 vs $0.294. Qwen3.6 Plus быстрее: 30.70s vs 72.22s, с долей успешных попыток 66.7% vs 69.8%.
Рекомендуемая модель: DeepSeek V4 Pro - Здесь у него лучший балл (8.1), при этом он примерно в 3.0 раза дешевле, чем Qwen3.6 Plus.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-12
9.6Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
7.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
9.3Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Ошибка API: 1Не соблюдены инструкции: 1Время ответа (среднее)30.70sВремя ответа (макс.)201.68sВремя ответа (суммарно)613.99sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
69.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
6Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
57Всего запусков…
63Всего запусков…
Стоимость за результат
0.978Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.831Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.098Общая стоимость (текущая цена)…
$0.294Общая стоимость (текущая цена)…
Цена входа
$0.435 / 1MЦена входа…
$0.325 / 1MЦена входа…
Цена выхода
$0.870 / 1MЦена выхода…
$1.950 / 1MЦена выхода…
Общее число входных токенов
35,122Общее число входных токенов…
41,565Общее число входных токенов…
Выходные токены
6,315Выходные токены…
1,853Выходные токены…
Токены рассуждений
93,205Токены рассуждений…
141,973Токены рассуждений…
Время ответа (среднее)
72.22sВремя ответа (среднее)…
30.70sВремя ответа (среднее)…
Время ответа (макс.)
437.44sВремя ответа (макс.)…
201.68sВремя ответа (макс.)…
Время ответа (суммарно)
1444.45sВремя ответа (суммарно)…
613.99sВремя ответа (суммарно)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
5.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
58.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Нет ответа: 1Время ответа (среднее)25.70sВремя ответа (макс.)48.19sВремя ответа (суммарно)102.80sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.90sВремя ответа (макс.)19.37sВремя ответа (суммарно)39.60sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)308.19sВремя ответа (макс.)437.44sВремя ответа (суммарно)616.38sТест считается полностью пройденным, только если все его прогоны успешны.…
7.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Неверный ответ: 1Время ответа (среднее)153.12sВремя ответа (макс.)201.68sВремя ответа (суммарно)306.23sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)38.17sВремя ответа (макс.)38.17sВремя ответа (суммарно)38.17sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)34.95sВремя ответа (макс.)34.95sВремя ответа (суммарно)34.95sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)25.03sВремя ответа (макс.)27.49sВремя ответа (суммарно)50.06sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)14.95sВремя ответа (макс.)15.40sВремя ответа (суммарно)29.90sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
22.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Лишнее форматирование: 1Время ответа (среднее)130.09sВремя ответа (макс.)323.13sВремя ответа (суммарно)390.28sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
11.1%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)29.59sВремя ответа (макс.)43.55sВремя ответа (суммарно)88.77sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)8.83sВремя ответа (макс.)8.83sВремя ответа (суммарно)8.83sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)27.05sВремя ответа (макс.)27.05sВремя ответа (суммарно)27.05sТест считается полностью пройденным, только если все его прогоны успешны.…
6.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)8.73sВремя ответа (макс.)9.53sВремя ответа (суммарно)17.45sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.54sВремя ответа (макс.)11.67sВремя ответа (суммарно)15.07sТест считается полностью пройденным, только если все его прогоны успешны.…
4.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
77.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)56.85sВремя ответа (макс.)146.68sВремя ответа (суммарно)170.55sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.34sВремя ответа (макс.)7.52sВремя ответа (суммарно)19.03sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.92sВремя ответа (макс.)15.92sВремя ответа (суммарно)15.92sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.87sВремя ответа (макс.)5.87sВремя ответа (суммарно)5.87sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)34.01sВремя ответа (макс.)34.01sВремя ответа (суммарно)34.01sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)47.51sВремя ответа (макс.)47.51sВремя ответа (суммарно)47.51sТест считается полностью пройденным, только если все его прогоны успешны.…