Bei einigen großen Tech-Konzernen kursieren Berichte über Mitarbeiter, die KI-Systeme nutzen, um Zugverbindungen zu prüfen oder Bilder ihrer Haustiere zu generieren – nicht weil das sinnvoll wäre, sondern um auf internen Leaderboards sichtbar zu bleiben. Uber hat sein gesamtes Claude-Budget für 2026 bis April verbraucht. ServiceNow brauchte dafür weniger als fünf Monate des Jahres.
Das nennt sich Tokenmaxxing: möglichst viele Token verbrauchen, egal wozu. Und niemand fragt, was das eigentlich kostet – in Geld oder in CO₂.
Die Metrik, die fehlt
Die Rechenzentrumsbranche hat gerade ihren nächsten Lieblingsindikator gefunden: Tokens per Watt – wie viele KI-Outputs entstehen pro verbrauchtem Watt. Für Betreiber ist das relevant: Bessere Token-Effizienz bedeutet bessere Margen auf teuren GPUs.
Aber diese Metrik schaut auf die falsche Seite der Gleichung. Sie fragt: Wie effizient produziert das Rechenzentrum Token? Nicht: Wie viel CO₂ erzeugt ein Token beim Nutzer?
Das Äquivalent für die Nutzerseite – CO₂ pro Token – existiert praktisch nicht. Schneider Electrics EVP für Rechenzentren sagte auf die Frage nach einer Kennzahl, die Token mit Nachhaltigkeit verbindet: „I don’t think anybody has tried." Man denke intensiv darüber nach. Es sei etwas, das man sich anschauen müsse.
Was wir wissen – und was wir nicht wissen
Benchmarks zeigen eine Energieintensität von 0,3 bis 1,5 Joule pro Token, abhängig von Modellgröße, Präzision und Workload. Daraus lässt sich CO₂ pro Token ableiten – aber nur näherungsweise, weil der Energiemix des Rechenzentrums, die Hardware-Generation und die Auslastung zum Zeitpunkt der Anfrage alle eine Rolle spielen.
Das ist die ehrliche Antwort: Berechenbar, aber nicht einfach auszuweisen. Noch nicht.
Warum diese Zahl wichtig wäre
Als Restaurants anfingen, Kalorien auf Speisekarten auszuweisen, änderte sich das Bestellverhalten – nicht dramatisch, aber messbar. CO₂ pro Token würde dasselbe leisten.
Wer weiß, dass eine aufwendige Multi-Agenten-Anfrage zehnmal mehr kostet als eine einfache Abfrage an ein kleines Modell, stellt die Frage: Brauche ich das wirklich? Oder reicht eine Websuche?
In meiner Beratung empfehle ich genau das: Kleine Modelle für einfache Aufgaben. Nicht aus Askese, sondern weil es präziser ist. Wer ein Großraum-LLM fragt, ob ein Satz grammatikalisch korrekt ist, betreibt digitales Tokenmaxxing – und zahlt dafür in Geld und CO₂, ohne es zu merken.
Die Branche hat PUE, WUE und jetzt Tokens per Watt. Was fehlt, ist die Nutzer-Seite dieser Gleichung. Solange CO₂ pro Token unsichtbar bleibt, wirkt Tokenmaxxing rational – obwohl es das Gegenteil ist.
Quelle: Are tokens the only data center metric that matter in the age of AI? – Data Center Dynamics, 2. Juni 2026
