CO₂ pro Token: Die Zahl, die niemand kennt

Bei einigen großen Tech-Konzernen kursieren Berichte über Mitarbeiter, die KI-Systeme nutzen, um Zugverbindungen zu prüfen oder Bilder ihrer Haustiere zu generieren – nicht weil das sinnvoll wäre, sondern um auf internen Leaderboards sichtbar zu bleiben. Uber hat sein gesamtes Claude-Budget für 2026 bis April verbraucht. ServiceNow brauchte dafür weniger als fünf Monate des Jahres.

Das nennt sich Tokenmaxxing: möglichst viele Token verbrauchen, egal wozu. Und niemand fragt, was das eigentlich kostet – in Geld oder in CO₂.

Die Metrik, die fehlt

Die Rechenzentrumsbranche hat gerade ihren nächsten Lieblingsindikator gefunden: Tokens per Watt – wie viele KI-Outputs entstehen pro verbrauchtem Watt. Für Betreiber ist das relevant: Bessere Token-Effizienz bedeutet bessere Margen auf teuren GPUs.

Aber diese Metrik schaut auf die falsche Seite der Gleichung. Sie fragt: Wie effizient produziert das Rechenzentrum Token? Nicht: Wie viel CO₂ erzeugt ein Token beim Nutzer?

Das Äquivalent für die Nutzerseite – CO₂ pro Token – existiert praktisch nicht. Schneider Electrics EVP für Rechenzentren sagte auf die Frage nach einer Kennzahl, die Token mit Nachhaltigkeit verbindet: „I don’t think anybody has tried." Man denke intensiv darüber nach. Es sei etwas, das man sich anschauen müsse.

Was wir wissen – und was wir nicht wissen

Benchmarks zeigen eine Energieintensität von 0,3 bis 1,5 Joule pro Token, abhängig von Modellgröße, Präzision und Workload. Daraus lässt sich CO₂ pro Token ableiten – aber nur näherungsweise, weil der Energiemix des Rechenzentrums, die Hardware-Generation und die Auslastung zum Zeitpunkt der Anfrage alle eine Rolle spielen.

Das ist die ehrliche Antwort: Berechenbar, aber nicht einfach auszuweisen. Noch nicht.

Warum diese Zahl wichtig wäre

Als Restaurants anfingen, Kalorien auf Speisekarten auszuweisen, änderte sich das Bestellverhalten – nicht dramatisch, aber messbar. CO₂ pro Token würde dasselbe leisten.

Wer weiß, dass eine aufwendige Multi-Agenten-Anfrage zehnmal mehr kostet als eine einfache Abfrage an ein kleines Modell, stellt die Frage: Brauche ich das wirklich? Oder reicht eine Websuche?

In meiner Beratung empfehle ich genau das: Kleine Modelle für einfache Aufgaben. Nicht aus Askese, sondern weil es präziser ist. Wer ein Großraum-LLM fragt, ob ein Satz grammatikalisch korrekt ist, betreibt digitales Tokenmaxxing – und zahlt dafür in Geld und CO₂, ohne es zu merken.

Die Branche hat PUE, WUE und jetzt Tokens per Watt. Was fehlt, ist die Nutzer-Seite dieser Gleichung. Solange CO₂ pro Token unsichtbar bleibt, wirkt Tokenmaxxing rational – obwohl es das Gegenteil ist.

Tipp
Vor der nächsten KI-Anfrage: Braucht diese Aufgabe wirklich ein großes Modell? Eine einfache Websuche, ein spezialisiertes kleines Modell oder ein Tabellenkalkulationstool lösen viele Alltagsaufgaben mit einem Bruchteil des Energieaufwands. Die nachhaltigste KI-Anfrage ist die, die gar nicht erst gestellt werden muss.

Quelle: Are tokens the only data center metric that matter in the age of AI? – Data Center Dynamics, 2. Juni 2026