AI BENCHY Compare
Anthropic: Claude Sonnet 4.6 vs OpenAI: GPT-5.2 Chat
Comparer:
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-03-03
| Métrique | Anthropic: Claude Sonnet 4.6 medium Sortie: 2026-02-17 | OpenAI: GPT-5.2 Chat none Sortie: 2025-12-11 |
|---|---|---|
| Rang | #11 | #12 |
| Score moy. | 7.43 | 7.41 |
| Cohérence | 9.40 | 9.45 |
| Coût par résultat | 8.105 | 2.261 |
| Coût total | $0.811 | $0.227 |
| Tests corrects | ||
| Taux de réussite par tentative | 73.8% | 73.8% |
| Tests instables | 1 | 1 |
| Jetons de sortie | 29,098 | 14,267 |
| Jetons de raisonnement | 20,435 | 0 |
Score vs coût total
Répartition par catégorie
| Astuces anti-IA | Score | Cohérence | Taux de réussite par tentative | Tests instables | Tests corrects | Jetons de sortie | Jetons de raisonnement |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 7.00 | 10.00 | 66.7% | 0 | 1,031 | 1,093 | |
| OpenAI: GPT-5.2 Chat | 10.00 | 10.00 | 100.0% | 0 | 1,651 | 0 |
| Analyse et extraction des données | Score | Cohérence | Taux de réussite par tentative | Tests instables | Tests corrects | Jetons de sortie | Jetons de raisonnement |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 727 | 907 | |
| OpenAI: GPT-5.2 Chat | 9.88 | 10.00 | 100.0% | 0 | 980 | 0 |
| Spécifique au domaine | Score | Cohérence | Taux de réussite par tentative | Tests instables | Tests corrects | Jetons de sortie | Jetons de raisonnement |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 1.00 | 7.21 | 11.1% | 1 | 25,790 | 16,919 | |
| OpenAI: GPT-5.2 Chat | 4.00 | 10.00 | 33.3% | 0 | 7,810 | 0 |
| Suivi des instructions | Score | Cohérence | Taux de réussite par tentative | Tests instables | Tests corrects | Jetons de sortie | Jetons de raisonnement |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 316 | 523 | |
| OpenAI: GPT-5.2 Chat | 5.50 | 6.13 | 66.7% | 1 | 1,528 | 0 |
| Puzzle Solving | Score | Cohérence | Taux de réussite par tentative | Tests instables | Tests corrects | Jetons de sortie | Jetons de raisonnement |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 579 | 642 | |
| OpenAI: GPT-5.2 Chat | 7.00 | 10.00 | 66.7% | 0 | 1,743 | 0 |
| Appel d'outils | Score | Cohérence | Taux de réussite par tentative | Tests instables | Tests corrects | Jetons de sortie | Jetons de raisonnement |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 655 | 351 | |
| OpenAI: GPT-5.2 Chat | 10.00 | 10.00 | 100.0% | 0 | 555 | 0 |
Comparaison rapide
Changer la paire de comparaison
GPT-5.2 ChatnonevsGLM 5mediumClaude Sonnet 4.6mediumvsGPT-5.3 ChatnoneClaude Sonnet 4.6mediumvsGemini 3 Flash PreviewnoneClaude Sonnet 4.6mediumvsGemini 3.1 Flash Lite PreviewnoneClaude Sonnet 4.6mediumvsGemini 3.1 Flash Lite PreviewhighGemini 2.5 FlashmediumvsGPT-5.2 ChatnoneGemini 3.1 Flash Lite PreviewhighvsGPT-5.2 ChatnoneClaude Sonnet 4.6mediumvsGemini 3.1 Flash Lite PreviewlowGPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponible gratuitementGemini 3.1 Flash Lite PreviewlowvsGPT-5.2 ChatnoneDeepSeek V3.2mediumvsGPT-5.2 ChatnoneGemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone