Terug naar blog
AI in de praktijk 5 min leestijd

De AI race: Opus 4.6, GPT-5.4, en waarom shipping speed ertoe doet

Februari Opus 4.6, maart GPT-5.4. De modellen convergeren, maar het verschil zit niet in benchmarks. 74 Anthropic releases in 52 dagen laten zien waarom shipping speed belangrijker is dan ruwe scores.

Februari 2026: Anthropic dropt Opus 4.6 met 1 miljoen tokens context. Maart 2026: OpenAI beantwoordt met GPT-5.4, hun alles-in-een model. Twee maanden, twee compleet verschillende strategieen. En het verschil zit niet in de benchmarks.

In mijn eerdere vergelijking koos ik voor Opus 4.5. Die keuze staat nog steeds. Maar de redenen zijn verschoven. Dit gaat niet meer over welk model "slimmer" is. Dit gaat over welk bedrijf sneller levert.

Opus 4.6: wat er echt veranderde

Opus 4.6 lanceerde op 5 februari 2026. De headline feature: 1 miljoen tokens context window, een primeur voor de Opus-klasse. Maar de benchmarks vertellen het echte verhaal.

  • MRCR v2: 76% (versus 18.5% voor Sonnet 4.5). Dit meet hoe goed een model informatie terugvindt in enorme contexten. Vier keer beter dan het beste Sonnet model.
  • Terminal-Bench 2.0: 65.4%. Real-world coding taken in een terminal, niet synthetische puzzels.
  • ARC-AGI-2: 68.8%. Abstract redeneren, het soort taken waar brute-force niet werkt.
  • 128K max output. Geen afgeknipte antwoorden meer bij grote generaties.

Maar benchmarks zijn benchmarks. Wat ik dagelijks merk in Claude Code: context compaction werkt. Waar ik eerder tegen de muur liep bij grote codebases, houdt Opus 4.6 de draad vast. Het comprimeert slim wat het niet meer nodig heeft en onthoudt wat wel relevant is.

De nieuwe features voor Claude Code zijn minstens zo belangrijk: agent teams (meerdere Claude instanties die samenwerken), adaptive thinking (het model kiest zelf hoeveel denkwerk een taak nodig heeft), en effort controls waarmee je kunt sturen hoeveel resources het besteedt.

En dan de pricing: $5 input, $25 output per miljoen tokens. Exact hetzelfde als Opus 4.5. Beter model, zelfde prijs. Dat is hoe het hoort.

GPT-5.4: OpenAI's antwoord

Maart 2026, OpenAI's beurt. GPT-5.4 is hun poging om alles samen te voegen: reasoning, coding, agentic workflows. Een model voor alles.

De specs zijn indrukwekkend op papier:

  • 1 miljoen tokens context, net als Opus 4.6.
  • GPT-5.3-Codex capabilities ingebouwd, hun dedicated coding model zit er nu in.
  • Interactive learning voor 70+ wiskundige en wetenschappelijke onderwerpen.
  • Library, een nieuw file management systeem.
  • ChatGPT Go, een nieuwe pricing tier.

OpenAI doet ook interessante dingen buiten het model. Ze hebben Peter Steinberger aangenomen, de maker van OpenClaw. De man die het meest chaotische open source AI-project van 2025 bouwde, werkt nu voor OpenAI. Dat zegt iets over hun ambitie in de agent-space.

Ondertussen zijn GPT-5.1 modellen al op 11 maart gepensioneerd. Dat tempo van model-cycling is nieuw voor OpenAI. Ze bewegen sneller dan voorheen.

Het echte verhaal: shipping speed

Hier wordt het interessant. Vergeet de benchmarks even. Kijk naar wat Anthropic deed in de 52 dagen rond de Opus 4.6 release.

74 releases in 52 dagen.

Dat is niet een typo. 74 releases. Meer dan een per dag. Claude Code kreeg in die periode:

  • Channels: integraties met Telegram en Discord, zodat Claude je kan notificeren buiten de terminal.
  • Hooks: event-driven automations die triggeren op specifieke acties.
  • Git worktrees: meerdere branches tegelijk bewerken zonder context te verliezen.
  • Security scans: automatische vulnerability checks in je codebase.
  • Computer use: Claude kan je desktop bedienen, formulieren invullen, screenshots maken.

Dit is niet "we releasen een model en wachten zes maanden". Dit is continu shippen. Elke dag iets beters. Het Ralph Wiggum verhaal was al een voorbeeld: community hack vandaag, native feature volgende week. Maar nu gaat het nog sneller.

Waarom shipping speed > benchmarks

Een model dat 3% beter scoort op een benchmark merk je niet in je dagelijks werk. Een tool die elke week nieuwe features krijgt, merk je wel.

Denk er zo over na:

  • Opus 4.6 scoort 65.4% op Terminal-Bench 2.0. Stel dat GPT-5.4 67% scoort, maakt dat verschil voor jouw dagelijkse development? Waarschijnlijk niet.
  • Maar het verschil tussen "mijn tool kan Telegram notificaties sturen" en "mijn tool kan dat niet"? Dat merk je elke dag.
  • Het verschil tussen "git worktrees support" en "handmatig branches switchen"? Dat kost je uren per week.

OpenAI investeert zwaar in consumer features: interactive learning, shopping, ChatGPT Go. Logisch vanuit hun business model. Maar als developer heb ik daar weinig aan. Ik wil een betere coding tool, niet een betere wiskundeleraar.

Anthropic investeert in developer tooling. Skills, agents, hooks, worktrees. Elke release maakt mijn workflow concreet beter. Dat compound effect is waar het om gaat.

Het platform-effect

Er is nog iets. Als je diep in een ecosystem investeert, wordt de switching cost hoog. Mijn James setup draait volledig op Claude Code. Skills, agents, CLI tools, hooks, alles is gebouwd rond Anthropic's platform.

Dat is een risico. Als Anthropic morgen stopt, heb ik een probleem. Maar het is ook een voordeel: elke verbetering die Anthropic maakt, maakt mijn hele stack beter. Die 74 releases in 52 dagen? Elk daarvan verbeterde iets in mijn dagelijkse workflow. Gratis. Zonder dat ik code hoefde aan te passen.

Bij OpenAI zie je het omgekeerde. GPT-5.1 modellen gepensioneerd na een paar weken. Developers die op die modellen bouwden, moesten migreren. Dat soort churn is duur.

Anthropic's aanpak is anders: Opus 4.6 is backwards compatible. Je oude prompts werken. Je bestaande CLAUDE.md bestanden werken. Upgrade, en alles is beter zonder dat je iets hoeft te veranderen.

Wat dit betekent als developer

De AI race is niet meer "welk model is het slimst". De modellen convergeren. Ze worden allemaal goed genoeg voor de meeste taken. Het verschil zit in het ecosysteem eromheen.

Drie dingen om op te letten:

  • Shipping cadence. Hoe snel itereert het team? 74 releases in 52 dagen is een signaal. Het betekent dat problemen snel worden opgelost en dat feedback wordt opgepikt.
  • Developer focus. Wordt er gebouwd voor developers of voor consumers? Beide zijn valide strategieen, maar je moet weten waar jij in past.
  • Backwards compatibility. Kun je upgraden zonder je hele stack te herschrijven? Model churn is een echte kostenpost.

Mijn keuze blijft Anthropic. Niet omdat Opus 4.6 "beter" is dan GPT-5.4 op elke benchmark. Maar omdat het platform waar ik dagelijks mee werk, sneller verbetert dan wat dan ook in deze industrie. En die snelheid compound over tijd.

Benieuwd naar de context? Lees mijn originele LLM vergelijking voor de achtergrond. Of bekijk hoe ik Claude Code dagelijks inzet via skills en subagents.

Wil je sparren over welk platform bij jouw situatie past? Neem contact op. Geen verkooppraatje, gewoon een eerlijk gesprek over wat werkt.

Wil je dit soort oplossingen in je eigen organisatie?

Vragen over dit onderwerp?

Ik denk graag mee over hoe dit toepasbaar is voor jouw situatie.

Deze site gebruikt cookies voor analytics. Privacybeleid