Tokens und das Kontextfenster
Zwei Begriffe entscheiden bei jeder KI im Hintergrund mit: wie viel sie kostet und wie viel Text sie auf einmal verarbeiten kann. Wer Tokens und das Kontextfenster versteht, trifft bei KI-Projekten bessere Entscheidungen — ganz ohne Technik-Studium.
Ein Token ist die kleinste Verarbeitungseinheit eines Sprachmodells — ein Wortteil, kurz ungefähr ein dreiviertel Wort. KI-Modelle zerlegen jeden Text in Tokens und rechnen damit; abgerechnet wird meist pro Token, deshalb steuern Tokens direkt deine Kosten. Das Kontextfenster ist die maximale Menge an Tokens, die ein Modell pro Anfrage gleichzeitig verarbeiten kann — Frage und Antwort zusammen. Es ist das Kurzzeitgedächtnis des Modells: Was nicht hineinpasst, fällt weg. Für dich als KMU heisst das: Tokens = Kosten, Kontextfenster = wie viel Dokument die KI auf einmal lesen kann.
Worum es geht — in einem Satz
Ein Token ist die kleinste Recheneinheit einer KI, das Kontextfenster ihr Kurzzeitgedächtnis. Das eine bestimmt, was deine KI kostet. Das andere bestimmt, wie viel Text sie auf einmal verarbeiten kann. Beides läuft unsichtbar im Hintergrund — aber sobald du KI im Betrieb einsetzt, entscheiden genau diese zwei Grössen über Preis und Möglichkeiten.
Die gute Nachricht: Du musst dafür nichts programmieren und keine Mathematik können. Es reicht, die zwei Begriffe einmal sauber zu verstehen — dann triffst du bei jedem KI-Vorhaben bessere Entscheidungen.
Was ist ein Token?
Ein Token ist die kleinste Verarbeitungseinheit eines Sprachmodells. Bevor eine KI einen Text «liest», zerlegt sie ihn in solche Tokens — und sie rechnet danach ausschliesslich mit diesen Einheiten.
Ein Token ist dabei nicht dasselbe wie ein Wort. Oft ist es ein Wortteil: Ein längeres Wort kann in mehrere Tokens zerfallen, ein kurzes Wort ist eines, und auch Satzzeichen oder Leerzeichen zählen mit. Als grobe Faustregel gilt im Englischen: Ein Token entspricht typischerweise rund einem dreiviertel Wort beziehungsweise etwa vier Zeichen (OpenAI Help Center).
Merksatz: Die KI denkt nicht in Wörtern und nicht in Seiten — sie denkt in Tokens. Wer KI verstehen will, muss diese Einheit kennen, denn alles andere baut darauf auf.
Warum ist das mehr als ein technisches Detail? Weil fast immer pro Token abgerechnet wird. Der Text, den du hineingibst, kostet Tokens — und die Antwort, die zurückkommt, ebenfalls. Tokens sind damit nicht nur die Recheneinheit der KI, sondern auch ihre Währung.
Was ist das Kontextfenster?
Das Kontextfenster ist die maximale Anzahl Tokens, die ein Modell bei einer einzelnen Anfrage gleichzeitig verarbeiten kann — und zwar Frage und Antwort zusammengerechnet (IBM: What is a context window?).
Stell es dir als Kurzzeitgedächtnis vor. Alles, worüber das Modell für diese eine Aufgabe gerade nachdenkt — deine Anweisung, die mitgelieferten Dokumente, der bisherige Gesprächsverlauf und der Platz für die Antwort — muss in dieses Fenster passen. Ist das Fenster voll, ist es voll.
Und genau hier liegt die wichtigste praktische Folge: Wird das Kontextfenster überschritten, wird der Text abgeschnitten. Das Modell sieht den überzähligen Teil schlicht nicht mehr — es kann ihn also auch nicht berücksichtigen. Eine KI, die «den letzten Absatz vergisst» oder «den Anfang eines langen Dokuments ignoriert», stösst meist genau an diese Grenze.
Die zwei Brücken: Kosten und Dokumentgrösse
Für dich als KMU lassen sich Tokens und Kontextfenster auf zwei sehr konkrete Fragen herunterbrechen — was kostet das, und wie viel passt rein.
| Tokens | Kontextfenster | |
|---|---|---|
| Was es ist | Kleinste Recheneinheit (Wortteil) | Max. Token-Zahl pro Anfrage |
| Bild dafür | Die Währung der KI | Das Kurzzeitgedächtnis |
| Worüber es entscheidet | Deine Kosten | Wie viel Text auf einmal reingeht |
| Was passiert am Limit | Mehr Tokens = mehr Kosten | Überhang wird abgeschnitten |
| Deine Stellschraube | Nur Relevantes mitschicken | Dokumente sinnvoll aufteilen |
Brücke 1 — die Kosten. Weil pro Token abgerechnet wird, kostet jede Anfrage mehr, je mehr Text du hineingibst und herausbekommst. Wer einer KI bei jeder Anfrage ein ganzes Handbuch mitschickt, zahlt jedes Mal für das ganze Handbuch — auch wenn nur ein Satz daraus relevant war. Was das im Alltag für den Preis einer Automatisierung bedeutet, steht unter Was kostet KI-Automatisierung?.
Brücke 2 — wie viel die KI auf einmal lesen kann. Das Kontextfenster setzt die Obergrenze. Da ein Token grob ein dreiviertel Wort ist, lässt sich aus dem Token-Limit eines Modells ungefähr abschätzen, wie umfangreich ein Dokument sein darf, das die KI am Stück erfasst. Ein dreiseitiger Vertrag passt locker; ein 300-seitiges Reglement oft nicht.
Was du in der Praxis daraus mitnimmst
Du musst Tokens nicht selbst zählen — aber diese Konsequenzen sind nützlich:
- Kurz und gezielt formulieren spart Geld. Je knapper und präziser deine Anweisung, desto weniger Tokens — und desto günstiger und oft auch besser die Antwort. Mehr dazu unter Prompt Engineering.
- Nicht alles auf einmal hineinwerfen. Statt ein ganzes Archiv mitzuschicken, gibt man der KI gezielt die relevanten Ausschnitte. Das schont das Kontextfenster und die Kosten zugleich.
- Lange Dokumente werden aufgeteilt. Was nicht ins Fenster passt, zerlegt man in Abschnitte und legt der KI jeweils die passende Stelle vor — so umgeht man das Abschneiden.
- Bei sehr grossen Wissensbeständen braucht es einen Mechanismus, der vorab die richtigen Stellen heraussucht, statt alles ins Fenster zu zwingen. Das ist das Grundprinzip hinter durchsuchbarem KI-Wissen.
Wie FrontierX damit umgeht
Tokens und Kontextfenster sind kein Thema, mit dem du dich beschäftigen musst — das ist unsere Aufgabe. Wenn FrontierX eine Automatisierung für deinen Betrieb baut, achten wir im Hintergrund darauf, dass jede Anfrage nur die wirklich nötigen Informationen enthält: gut für die Zuverlässigkeit, gut für die Kosten.
Konkret heisst das, dass wir lange Dokumente sauber aufbereiten, der KI gezielt die passenden Stellen vorlegen und so verhindern, dass etwas unbemerkt abgeschnitten wird. Du bringst dein Fachwissen über deinen Ablauf ein — die Technik dahinter, inklusive des sparsamen Umgangs mit Tokens, übernehmen wir.
Wenn du wissen willst, was eine KI für einen konkreten Vorgang in deinem Betrieb leisten könnte und was sie kostet, ist eine kurze Auslegeordnung der einfachste erste Schritt — ohne Verpflichtung, in deiner Sprache.
Fragen, die zu diesem Thema gestellt werden.
Was ist ein Token bei einem KI-Modell?
Ein Token ist die kleinste Verarbeitungseinheit eines Sprachmodells — meist ein Wortteil, kein ganzes Wort. Das Modell zerlegt jeden Text zuerst in solche Tokens und rechnet dann damit. Als Faustregel entspricht im Englischen ein Token typischerweise rund einem dreiviertel Wort beziehungsweise etwa vier Zeichen (OpenAI Help Center). Wichtig für dich: Die meisten Anbieter rechnen pro Token ab — Tokens sind also die Einheit, in der KI gemessen und bezahlt wird.
Was ist das Kontextfenster und warum ist es begrenzt?
Das Kontextfenster ist die maximale Anzahl Tokens, die ein Modell bei einer einzelnen Anfrage gleichzeitig verarbeiten kann — Frage und Antwort zusammengezählt (IBM). Du kannst es dir als Kurzzeitgedächtnis vorstellen: Alles, was das Modell für diese eine Aufgabe gerade «im Kopf» behält, muss hineinpassen. Überschreitest du das Limit, wird der Text abgeschnitten — das Modell sieht den Überhang schlicht nicht mehr und kann ihn folglich nicht berücksichtigen.
Was bedeuten Tokens für meine KI-Kosten?
Sehr viel, denn abgerechnet wird in der Regel pro Token — sowohl für den Text, den du hineingibst, als auch für die Antwort. Ein langes Dokument, das du jedes Mal vollständig mitschickst, kostet entsprechend mehr als eine knappe Frage. Genau deshalb lohnt es sich, einer KI gezielt nur die relevanten Ausschnitte zu geben statt alles auf einmal. Wie sich das auf den Preis einer Automatisierung auswirkt, steht unter «Was kostet KI-Automatisierung?».
Wie viel Text kann eine KI auf einmal «lesen»?
So viel, wie ins Kontextfenster passt — gemessen in Tokens, nicht in Seiten. Da ein Token grob ein dreiviertel Wort ist, lässt sich aus dem Token-Limit eines Modells ungefähr ableiten, wie umfangreich ein Dokument sein darf, das es am Stück erfasst. Ist ein Dokument zu gross fürs Fenster, wird es abgeschnitten. In der Praxis löst man das, indem man lange Dokumente in Abschnitte teilt und der KI gezielt die passenden Stellen vorlegt, statt den gesamten Text auf einmal.
Verwandte Themen.
Bereit, das in deinem Betrieb einzusetzen?
FrontierX startet mit einer Auslegeordnung deiner Abläufe und automatisiert den Vorgang mit dem grössten Hebel zuerst — DSG-konform, in Tagen statt Quartalen.
Gespräch anfragen