Token | ThinkTank

Wat is een token in AI?

In de context van grote taalmodellen is een token de kleinste eenheid waarmee het model tekst verwerkt en begrijpt. Een token is geen volledig woord maar een stuk tekst dat het model heeft leren herkennen op basis van statistische frequentie van lettercombinaties in de trainingsdata, een techniek die byte-pair encoding wordt genoemd. In het Engels correspondeert één token gemiddeld met vier tekens of driekwart woord. In het Nederlands liggen tokens iets langer omdat het Nederlands meer samengestelde woorden en lange afleidingen kent die minder frequent zijn in internationale trainingsdata. Als praktische vuistregel kunt je rekenen op 1,5 tot 2,5 tokens per gemiddeld Nederlands woord. Tokentelling is de standaardbasis waarop AI-API's gefactureerd worden en bepaalt ook de maximale omvang van een conversatie of documentverwerking.

Tokens en kostenbeheer

AI-platformen die via een API of op basis van verbruik gefactureerd worden, rekenen doorgaans afzonderlijk voor input tokens, alles wat je naar het model stuurt, en output tokens, alles wat het model als antwoord teruggeeft. Een lange systeemprompt, uitgebreide documentcontext die als RAG-fragmenten meegestuurd wordt, of een lange gesprekshistoriek die aan elke nieuwe vraag toegevoegd wordt, tellen allemaal mee als input tokens en verhogen de kosten per interactie. Effectief kostenbeheer begint bij het begrijpen van jullie tokenverbruik per use case: welke toepassingen verbruiken disproportioneel veel tokens en leveren die bijkomende kosten ook evenredige waarde? Kortere maar preciezere systeemprompts, selectieve documentinclusie via relevantiedrempels en het strategisch inkorten van gesprekshistorieken zijn doeltreffende maatregelen om tokenkosten te reduceren zonder merkbaar kwaliteitsverlies.

Tokenlimieten en lange documenten

Elk AI-model heeft een contextvenster: het maximale totale aantal tokens dat het model tegelijk kan verwerken, inclusief zowel de volledige input als de gewenste output. Vroege commerciële modellen hadden contextvensters van 4.000 tot 8.000 tokens, wat overeenkomt met circa 3.000 tot 6.000 Nederlandse woorden. Recente en krachtigere modellen bieden contextvensters van 128.000 tokens of zelfs meer, maar de kostprijs per token en de verwerkingstijd stijgen mee. Voor KMO's die lange contracten, uitgebreide rapporten, volledige handleidingen of omvangrijke kennisbases willen doorzoeken of verwerken, vormt het contextvenster een praktische en financiële beperking. Technieken als RAG lossen dit elegant op door via semantisch zoeken enkel de meest relevante fragmenten op te halen en mee te sturen, wat zowel de kwaliteit als de kostefficiëntie van de verwerking verhoogt.