AI BENCHY Compare
OpenAI: GPT-5.5 vs xAI: Grok 4.20
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-04-24
| Metriek | GPT-5.5 GPT-5.5 none | Grok 4.20 Grok 4.20 medium |
|---|---|---|
| Score | 6.8 | 7.0 |
| Rang | #58 | #55 |
| Betrouwbaarheid | n.v.t. | n.v.t. |
| Consistentie | 8.3 | 7.8 |
| Correcte tests | ||
| Slaagpercentage per poging | 61.1% | 66.7% |
| Instabiele tests | 4 | 5 |
| Totaal runs | 54 | 54 |
| Kosten per resultaat | 2.162 | 8.252 |
| Totale kosten | $0.195 | $0.743 |
| Invoerprijs | $5.000 / 1M | $2.000 / 1M |
| Uitvoerprijs | $30.000 / 1M | $6.000 / 1M |
| Uitvoer-tokens | 1,910 | 1,744 |
| Redeneer-tokens | 0 | 109,882 |
| Responstijd (gem.) | 1.83s | 10.33s |
| Responstijd (max) | 5.56s | 29.87s |
| Responstijd (totaal) | 32.86s | 185.87s |
Score vs totale kosten
Responstijd (gem.)
Score vs Responstijd (gem.)
Totaal aantal uitvoer-tokens
Score vs Totaal aantal uitvoer-tokens
Categorie-uitsplitsing
Snelle vergelijking
Vergelijkingspaar wisselen
Nemotron 3 SupermediumGratis beschikbaarvsGPT-5.5noneGemma 4 31BnoneGratis beschikbaarvsGrok 4.20mediumGPT-5.5nonevsGrok 4.1 FastmediumQwen3.5 Plus 2026-02-15nonevsGrok 4.20mediumKimi K2.5mediumvsGPT-5.5noneMercury 2mediumvsGPT-5.5noneDeepSeek V4 PrononevsGrok 4.20mediumGrok 4.20mediumvsGLM 5noneClaude Sonnet 4.6nonevsGrok 4.20mediumGrok 4.20mediumvsMiMo-V2-OmninoneGPT-5.5nonevsQwen3.5-35B-A3BmediumGPT-5.3 ChatnonevsGrok 4.20medium