Classement Spécifique au domaine x Mise en forme supplémentaire

Voyez quels modèles d'IA ont le plus de chances de rencontrer Mise en forme supplémentaire sur Spécifique au domaine, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

Échecs totaux

Modèle le plus touché

Claude Sonnet 4.6 1

Raisons d'échec

Mauvaise réponse412 Délai dépassé43 Mise en forme supplémentaire17 Aucune réponse8 Erreur API7 N'a pas suivi les instructions1

Catégories

Astuces anti-IA20 Programmation18 Spécifique au domaine17 Résolution d'énigmes8 Analyse et extraction des données6 Suivi des instructions3 Combiné1

13/13

Rang	Modèle	Entreprise	Nombre de Mise en forme supplémentaire	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
Tests totaux 3 Tests incorrects 3 Coût total $2.057 Temps de réponse (moy.) 0ms
#197	Grok 4.20 none	X AI	1	3.0	$0.057	0/3	687ms
Tests totaux 3 Tests incorrects 3 Coût total $0.057 Temps de réponse (moy.) 687ms
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	2.9	$0.041	0/3	4.99s
Tests totaux 3 Tests incorrects 3 Coût total $0.041 Temps de réponse (moy.) 4.99s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	2	2.9	$0.077	0/3	7.47s
Tests totaux 3 Tests incorrects 3 Coût total $0.077 Temps de réponse (moy.) 7.47s
#184	Hunter Alpha medium	OpenRouter	1	3.0	$0.000	0/3	10.5s
Tests totaux 3 Tests incorrects 3 Coût total $0.000 Temps de réponse (moy.) 10.5s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	2.9	$5.599	0/3	24.7s
Tests totaux 3 Tests incorrects 3 Coût total $5.599 Temps de réponse (moy.) 24.7s
#75	Grok 4.20 medium	X AI	1	5.3	$0.777	1/3	27.0s
Tests totaux 3 Tests incorrects 2 Coût total $0.777 Temps de réponse (moy.) 27.0s
#101	MiMo-V2.5 medium	Xiaomi	1	5.3	$0.082	1/3	34.5s
Tests totaux 3 Tests incorrects 2 Coût total $0.082 Temps de réponse (moy.) 34.5s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	5.3	$0.187	1/3	37.9s
Tests totaux 3 Tests incorrects 2 Coût total $0.187 Temps de réponse (moy.) 37.9s
#134	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/3	47.9s
Tests totaux 3 Tests incorrects 3 Coût total $0.683 Temps de réponse (moy.) 47.9s
#43	Claude Opus 4.6 medium	Anthropic	2	3.0	$3.059	0/3	83.4s
Tests totaux 3 Tests incorrects 3 Coût total $3.059 Temps de réponse (moy.) 83.4s
#46	DeepSeek V4 Pro high	DeepSeek	1	3.6	$0.200	0/3	151.5s
Tests totaux 3 Tests incorrects 3 Coût total $0.200 Temps de réponse (moy.) 151.5s
#48	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
Tests totaux 3 Tests incorrects 2 Coût total $1.097 Temps de réponse (moy.) 158.0s

Filtrer les modèles

Meilleurs modèles par Nombre de Mise en forme supplémentaire

Nombre de Mise en forme supplémentaire vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Spécifique au domaine : Mise en forme supplémentaire

Filtrer les modèles

Meilleurs modèles par Nombre de Mise en forme supplémentaire

Nombre de Mise en forme supplémentaire vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé