Сравнить Графики Методология

Язык:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.2 Chat vs StepFun: Step 3.5 Flash

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика	OpenAI: GPT-5.2 Chat none Релиз: 2025-12-11	StepFun: Step 3.5 Flash medium Релиз: 2026-02-01 Бесплатно доступно
Ранг	#15	#13
Средний балл	7.4	7.4
Стабильность	9.1	9.1
Стоимость за результат	2.440	0.000
Общая стоимость	$0.269	$0.000
Тестов верно
Доля успешных попыток	75.0%	68.8%
Нестабильные тесты	2	2
common.totalRuns	48 (16 x 3)	48 (16 x 3)
Выходные токены	15,845	71,452
Токены рассуждений	0	155,147
Время ответа (среднее)	7.03s	29.10s
Время ответа (макс.)	38.52s	170.45s
Время ответа (суммарно)	112.51s	290.96s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		3.97s	1,651	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	1,243	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.2 Chat	9.9	10.0	100.0%	0		3.05s	980	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.2 Chat	4.0	10.0	33.3%	0		17.78s	7,810	0
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.2 Chat	4.0	3.0	33.3%	1		3.20s	335	0
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.2 Chat	6.0	6.1	83.3%	1		5.46s	1,528	0
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.2 Chat	7.0	10.0	66.7%	0		4.42s	1,743	0
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	555	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Быстрое сравнение

Сменить пару сравнения

GPT-5.2 ChatnonevsGLM 5medium Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumБесплатно доступно GPT-5.3 ChatnonevsStep 3.5 FlashmediumБесплатно доступно GPT-5.2 ChatnonevsMiMo-V2-Flashmedium Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumБесплатно доступно Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumБесплатно доступно