AI BENCHY Compare

OpenAI: GPT-5.2 Chat vs Xiaomi: MiMo-V2.5-Pro

Rezumat

Comparație benchmark GPT-5.2 Chat vs MiMo-V2.5-Pro: GPT-5.2 Chat conduce la scorul mediu cu 7.9 vs 7.5. MiMo-V2.5-Pro are costul de benchmark mai mic, $0.106 vs $0.393. GPT-5.2 Chat este mai rapid cu 7.13s vs 26.13s, cu rate de reușită de 74.6% vs 68.3%.

Model recomandat: MiMo-V2.5-Pro - Scorul rămâne aproape de cel mai bun scor de aici (7.5 vs 7.9) și costă de aproximativ 3.7x mai puțin decât GPT-5.2 Chat.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-04

Metrică	GPT-5.2 Chat GPT-5.2 Chat none Lansare: 2025-12-11	MiMo-V2.5-Pro MiMo-V2.5-Pro medium Lansare: 2026-04-22

Metrică	GPT-5.2 Chat GPT-5.2 Chat none Lansare: 2025-12-11	MiMo-V2.5-Pro MiMo-V2.5-Pro medium Lansare: 2026-04-22
Scor	7.9	7.5
Rang	#24	#43
Fiabilitate	10.0	10.0
Consistență	8.9	8.5
Teste corecte
Rată de trecere pe încercare	74.6%	68.3%
Teste instabile	3	4
Rulări totale	63	63
Cost per rezultat	2.803	2.541
Cost total	$0.393	$0.106
Preț de intrare	$1.750 / 1M	$0.435 / 1M
Preț de ieșire	$14.000 / 1M	$0.870 / 1M
Total tokenuri de intrare	34,212	40,854
Tokenuri de ieșire	23,744	5,015
Tokenuri de raționament	0	97,742
Timp de răspuns (mediu)	7.13s	26.13s
Timp de răspuns (maxim)	38.52s	130.77s
Timp de răspuns (total)	149.69s	548.65s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#24 GPT-5.2 Chat

none

Cost: $0.010
Time: 15.3s
Tokens: 797 tok

#43 MiMo-V2.5-Pro

medium

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2 Chat	8.7	7.9	91.7%	1		3.40s	606	1,807	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		3.26s	621	323	1,179

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2 Chat	8.8	7.8	88.9%	1		9.82s	7,305	6,731	0
MiMo-V2.5-Pro	6.2	4.7	66.7%	2		92.07s	6,543	780	51,218

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	11,019	1,243	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		53.36s	15,060	348	11,870

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2 Chat	10.0	10.0	100.0%	0		3.05s	7,140	980	0
MiMo-V2.5-Pro	7.3	5.8	83.3%	1		18.81s	7,746	260	8,383

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2 Chat	5.3	10.0	33.3%	0		17.78s	723	7,810	0
MiMo-V2.5-Pro	5.3	10.0	33.3%	0		37.87s	630	275	17,023

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2 Chat	4.4	3.0	33.3%	1		3.20s	477	335	0
MiMo-V2.5-Pro	5.5	10.0	0.0%	0		4.02s	492	155	163

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2 Chat	9.8	10.0	100.0%	0		5.51s	660	1,441	0
MiMo-V2.5-Pro	9.9	10.0	100.0%	0		2.77s	672	82	803

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2 Chat	7.7	10.0	66.7%	0		4.10s	642	1,603	0
MiMo-V2.5-Pro	6.7	7.9	55.6%	1		5.31s	660	540	2,181

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	5,445	555	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		16.87s	8,220	311	2,908

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2 Chat	3.0	10.0	0.0%	0		6.89s	195	1,239	0
MiMo-V2.5-Pro	3.0	10.0	0.0%	0		12.46s	210	1,941	2,014

Comparație rapidă

Schimbă perechea de comparație

GPT-5.2 ChatnonevsQwen3.5 Plus 2026-02-15medium GPT-5.2 ChatnonevsGLM 5 Turbomedium GPT-5.2 ChatnonevsStep 3.7 Flashmedium Gemini 3 Flash PreviewnonevsMiMo-V2.5-Promedium GPT-5.2 ChatnonevsQwen3.6 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemma 4 31BmediumDisponibil gratuitvsGPT-5.2 Chatnone Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.5-122B-A10Bmedium Qwen3.7 MaxnonevsMiMo-V2.5-Promedium GPT-5.2 ChatnonevsQwen3.5-27Bmedium DeepSeek V4 FlashhighvsGPT-5.2 Chatnone