Classement des échecs pour Mise en forme supplémentaire

Voyez quels modèles d'IA rencontrent le plus souvent Mise en forme supplémentaire, pour repérer les risques de fiabilité avant de choisir. Trier par: Nombre d'échecs ↑.

Modèles affichés

Échecs totaux

Modèle le plus touché

Kimi K3 1

Catégories

Dans la catégorie Astuces anti-IA20 Dans la catégorie Programmation18 Dans la catégorie Spécifique au domaine17 Dans la catégorie Résolution d'énigmes8 Dans la catégorie Analyse et extraction des données6 Dans la catégorie Suivi des instructions3 Dans la catégorie Combiné1

42/42

Rang	Modèle	Entreprise	Nombre de Mise en forme supplémentaire	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#33	Kimi K3 max	Moonshot AI	1	8.0	$3.112	16/22	122.5s
Tests totaux 22 Tests incorrects 6 Coût total $3.112 Temps de réponse (moy.) 122.5s
#41	Claude Opus 4.8 low	Anthropic	1	7.8	$2.077	16/22	12.7s
Tests totaux 22 Tests incorrects 6 Coût total $2.077 Temps de réponse (moy.) 12.7s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Tests totaux 22 Tests incorrects 12 Coût total $0.200 Temps de réponse (moy.) 79.1s
#47	MiniMax M3 medium	Minimax	1	7.6	$0.286	12/22	75.0s
Tests totaux 22 Tests incorrects 10 Coût total $0.286 Temps de réponse (moy.) 75.0s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Tests totaux 22 Tests incorrects 9 Coût total $1.627 Temps de réponse (moy.) 111.9s
#73	Grok 4.3 medium	X AI	1	7.1	$0.779	13/22	47.4s
Tests totaux 22 Tests incorrects 9 Coût total $0.779 Temps de réponse (moy.) 47.4s
#74	GLM 5.1 medium	Z.ai	1	7.1	$0.535	13/22	46.8s
Tests totaux 22 Tests incorrects 9 Coût total $0.535 Temps de réponse (moy.) 46.8s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
Tests totaux 22 Tests incorrects 10 Coût total $0.777 Temps de réponse (moy.) 29.5s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
Tests totaux 22 Tests incorrects 12 Coût total $0.096 Temps de réponse (moy.) 11.6s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
Tests totaux 21 Tests incorrects 9 Coût total $0.333 Temps de réponse (moy.) 22.2s
#111	LongCat 2.0 none	Meituan	1	6.3	$0.044	7/22	5.18s
Tests totaux 22 Tests incorrects 15 Coût total $0.044 Temps de réponse (moy.) 5.18s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
Tests totaux 21 Tests incorrects 9 Coût total $0.043 Temps de réponse (moy.) 20.1s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	10/21	41.2s
Tests totaux 21 Tests incorrects 11 Coût total $0.683 Temps de réponse (moy.) 41.2s
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
Tests totaux 21 Tests incorrects 14 Coût total $0.000 Temps de réponse (moy.) 9.88s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Tests totaux 22 Tests incorrects 14 Coût total $0.048 Temps de réponse (moy.) 8.42s

Échecs Mise en forme supplémentaire

Filtrer les modèles

Meilleurs modèles par Nombre de Mise en forme supplémentaire

Nombre de Mise en forme supplémentaire vs Score

Meilleurs modèles par Temps de réponse (moy.)