LLM vergelijking: waarom ik voor Opus 4.5 kies
Niet alle LLMs zijn gelijk. GPT-5 kwam met controverse, DeepSeek verraste iedereen, en Europa loopt achter. Hier is waarom ik voor Opus 4.5 kies, en wanneer je beter iets anders pakt.
De LLM-markt is in een jaar tijd compleet veranderd. OpenAI worstelt met de GPT-5 overgang, een Chinees bedrijf schudde de industrie wakker, en Europa probeert bij te blijven. De keuze voor een model is niet meer "neem ChatGPT", het is een strategische beslissing.
In deze blog loop ik door de grote spelers, wat ze goed en slecht doen, en waarom ik uiteindelijk bij Claude Opus 4.5 uitkom voor serieus werk.
De grote spelers in 2026
OpenAI: van held naar controverse
OpenAI domineerde jarenlang. GPT-3 was de doorbraak, GPT-4 werd de standaard. Iedereen keek uit naar GPT-5.
En toen kwam GPT-5. En de reacties waren... niet wat OpenAI verwachtte.
Gebruikers vonden GPT-5 "creatively and emotionally flat" en "genuinely unpleasant to talk to". De toon was zakelijker, minder warm. OpenAI had bewust de "sycophantic" (vleierige) toon teruggeschroefd, maar ging te ver. Binnen 24 uur na de lancering moest Sam Altman GPT-4o weer terugbrengen.
Nu zitten we op GPT-5.2 met varianten als Instant, Thinking, en Pro. Plus GPT-5.2-Codex voor coding. Technisch indrukwekkend: 400K context window, sterke benchmarks, goede prijzen. Maar de controverse rond tone of voice blijft hangen. OpenAI blijft schroeven aan de persoonlijkheid, en gebruikers blijven klagen.
Anthropic: consistent en betrouwbaar
Terwijl OpenAI worstelde, bouwde Anthropic rustig door. Claude Opus 4.5 is nu hun flagship model, met Sonnet 4 en Haiku 4.5 voor dagelijks werk.
Wat Opus 4.5 onderscheidt:
- 80.9% op SWE-bench Verified: eerste model boven de 80% op echte coding taken
- Extended thinking: kan complex redeneren door na te denken voordat het antwoordt
- Consistente instructie-opvolging: doet wat je vraagt, niet wat het denkt dat je bedoelt
- Stabiele persoonlijkheid: geen gedoe met toon-veranderingen tussen versies
Voor coding met Claude Code is Opus 4.5 de beste keuze. Het begrijpt architectuur, volgt conventies, en maakt minder subtiele fouten dan de concurrentie.
DeepSeek: de Chinese verrassing
Begin 2025 schudde DeepSeek de industrie wakker. Een Chinees bedrijf dat met $6 miljoen trainingskosten modellen maakte die met GPT-4 konden concurreren. Waar OpenAI honderden miljoenen uitgeeft.
DeepSeek-V3 (671B parameters, 37B actief) presteert vergelijkbaar met westerse topmodellen. DeepSeek-R1 voor reasoning haalt scores vergelijkbaar met OpenAI's o1.
De nieuwste versie, V3.1, combineert beide: switch tussen "thinking" (chain-of-thought) en "non-thinking" (direct antwoord) met één instelling.
Het prijsvoordeel is enorm. Via OpenRouter kun je DeepSeek gebruiken voor een fractie van de kosten. Voor hoog-volume taken of experimenteren is dat interessant.
Maar: het is een Chinees bedrijf. Voor gevoelige bedrijfsdata is dat een overweging.
Google Gemini: de eternal underdog
Google heeft Gemini, inmiddels bij versie 3.0. Technisch capabel, goed geïntegreerd met Google's ecosysteem. Maar het voelt altijd als een inhaalslag. Nooit de eerste keuze, altijd de "oh ja, die ook".
Voor specifieke use cases (Google Workspace integratie, multimodal met video) kan het zinvol zijn. Voor algemeen development werk? Zelden de beste optie.
Mistral: de Europese hoop
Mistral AI is Europa's antwoord op de Amerikaanse AI-giganten. Frans, €12 miljard waardering, en ze doen serieuze dingen.
Mistral Large 3 (675B parameters) claimt het beste open-weight multilinguale model te zijn, met sterke support voor Europese talen. De Ministral 3 serie (3B, 8B, 14B) is klein genoeg voor edge devices.
Maar laten we eerlijk zijn: Europa loopt achter. Mistral is de enige serieuze Europese speler. Terwijl de VS drie grote labs heeft (OpenAI, Anthropic, Google) en China er minstens vijf, heeft Europa er één. En zelfs Mistral draait op Amerikaanse cloud infrastructure en NVIDIA hardware.
De geplande Mistral Compute met 18.000 NVIDIA chips in 2026 is een stap, maar het gat is groot.
OpenRouter: alle modellen, één API
OpenRouter verdient een speciale vermelding. Het is een aggregator die toegang geeft tot vrijwel alle modellen via één API. Geen aparte accounts bij OpenAI, Anthropic, Google, DeepSeek. Eén integratie, alle modellen.
De pricing is transparant: je betaalt de provider-prijs plus 5.5% fee. Voor experimenteren, A/B testen tussen modellen, of fallback scenarios is het perfect.
Features als :nitro (sorteer op snelheid) en :floor (sorteer op prijs) maken het makkelijk om de juiste balans te vinden.
Wanneer welk model?
| Taak | Model | Waarom |
|---|---|---|
| Complexe coding, architectuur | Opus 4.5 | Beste SWE-bench score, begrijpt grote codebases |
| Dagelijks development | Sonnet 4 | Sneller, goedkoper, goed genoeg voor 80% van taken |
| Simpele taken, hoog volume | Haiku 4.5 of DeepSeek | Kosten, snelheid |
| Frontend, grote context | GPT-5.2 | 400K context, sterke frontend capabilities |
| Abstract redeneren, wiskunde | GPT-5.2 | Sterkere reasoning benchmarks |
| Europese talen, compliance | Mistral Large 3 | Europees, sterke multilinguale support |
| Experimenteren, A/B testen | OpenRouter | Alle modellen, één API |
Mijn setup
In Claude Code gebruik ik:
- Opus 4.5 voor complexe taken: architectuur beslissingen, grote refactors, nieuwe features
- Sonnet 4 voor dagelijks werk: bug fixes, kleine features, code review
- Haiku voor snelle vragen en high-volume taken in subagents
In James draait standaard Opus 4.5. De extra kosten zijn het waard voor de kwaliteit. Bij SIA gebruiken we Claude's API voor de AI assistenten, specifiek vanwege de consistente instructie-opvolging.
GPT-5.2 gebruik ik occasioneel voor taken waar het sterker is: abstract redeneren, zeer lange documenten analyseren. Maar voor coding blijft Opus 4.5 de standaard.
Kosten realiteit
Per miljoen tokens (december 2025):
| Model | Input | Output |
|---|---|---|
| Opus 4.5 | $5.00 | $25.00 |
| Sonnet 4 | $1.50 | $7.50 |
| GPT-5.2 | $1.75 | $14.00 |
| DeepSeek V3 | ~$0.14 | ~$0.28 |
Opus 4.5 is duur. Maar "duur" is relatief. Als het model je 2 uur debugging bespaart, is $10 aan tokens niets. De vraag is niet "wat kost het?" maar "wat levert het op?"
Voor hoog-volume productie workloads: kijk naar Sonnet, Haiku, of DeepSeek. Voor development waar kwaliteit telt: Opus 4.5 betaalt zichzelf terug.
De toekomst
De markt blijft bewegen. OpenAI werkt aan GPT-6. Anthropic heeft Claude 5 in development. DeepSeek kondigt autonome agents aan voor eind 2026. Google probeert relevant te blijven.
Wat niet verandert: de keuze voor een model hangt af van je use case. Er is geen "beste" model, alleen het beste model voor jouw situatie.
Volgende stap
Dit was een overzicht van de LLM-markt. Wil je leren hoe je deze modellen effectief inzet? Lees over prompt engineering en context engineering.
In mijn AI trainingen werk je hands-on met verschillende modellen. Of bekijk hoe ik Claude inzet bij AI implementatie projecten.
Vragen? Neem contact op.