KI-Effizienz und Rebound-Effekt: Warum SubQ kein Klimaretter ist

600 Milliarden Dollar Börsenwert vernichtet – an einem einzigen Tag. Als im Januar 2025 die chinesische KI DeepSeek mit Berichten über ein Bruchteil-Budget und vergleichbarer Leistung zu GPT-4 aufschlug, brach der Nvidia-Kurs um 17 Prozent ein. Der Markt hatte eine neue Wahrheit verstanden: Token-Effizienz schlägt rohe Rechenpower.

Seither überschlagen sich ähnliche Meldungen. Die jüngste kommt vom Miamier Startup Subquadratic: Ihr Modell SubQ soll 56-mal schneller als gängige LLM-Architekturen inferieren – bei einem 12-Millionen-Token-Kontextfenster und einem Fünftel der Kosten von Frontier-Modellen.

Die Architektur hinter dem Versprechen

Klassische Transformer berechnen für jedes Token die Beziehung zu jedem anderen Token. Der Rechenaufwand wächst quadratisch: doppelte Eingabe, vierfacher Rechenbedarf. SubQ verwendet eine eigene “Subquadratic Selective Attention” (SSA), die nur relevante Token-Beziehungen dynamisch berechnet – der Aufwand skaliert damit linear statt quadratisch. Bei 12 Millionen Tokens soll das den Attention-Rechenaufwand um den Faktor 1.000 senken.

Das löst ein echtes, strukturelles Problem. Und die konkreten Zahlen klingen überzeugend: Ein bestimmter Benchmark kostet mit SubQ $8 – denselben Benchmark berechnet Anthropic Opus mit $2.600.

Achtung

Alle SubQ-Benchmarks stammen aus vendor-eigenen Tests oder einem einzigen beauftragten Evaluierungsdienstleister. Unabhängige Reproduktionen durch externe Forscher fehlen bislang vollständig. DeepSeek musste ähnliche Effizienzversprechen nach eingehender Prüfung ebenfalls relativieren.

Der Rebound-Effekt sitzt direkt daneben

Hier liegt das Problem, das solche Meldungen regelmäßig ausblenden: der Rebound-Effekt, auch bekannt als Jevons-Paradox.

Der britische Ökonom William Stanley Jevons beobachtete 1865, dass Englands Kohlebedarf nach Einführung effizienterer Dampfmaschinen nicht sank – er stieg. Günstigere Nutzung machte neue Anwendungen wirtschaftlich, die vorher nicht rentabel waren.

Genau das ist nach DeepSeek passiert. Die KI-Nutzung ist nicht gesunken. Sie ist explodiert, weil günstigere Inferenzkosten neue Anwendungsfelder geöffnet und die Einstiegshürde gesenkt haben. Der Stromverbrauch der KI-Industrie stieg 2025 trotzdem weiter an.

SubQ könnte denselben Effekt auslösen: 56-mal effizienter bedeutet nicht 56-mal weniger Stromverbrauch, wenn gleichzeitig 200-mal mehr Anfragen gestellt werden.

Tipp

Effizienz auf Infrastrukturebene entlastet Dich nicht von der Frage, ob ein Prompt überhaupt notwendig ist. KI-Datenhygiene bedeutet: kleinstes geeignetes Modell für die Aufgabe wählen, Kontext bewusst begrenzen, Ergebnisse wiederverwenden statt neu generieren. Das gilt unabhängig davon, wie effizient das Modell darunter ist.

Was bleibt

Architekturfortschritte wie SubQ sind wichtig – und nötig. Token-Effizienz ist der richtige strukturelle Hebel, um den Ressourcenbedarf von KI langfristig zu senken. Aber ohne bewussteren Umgang auf Anwendungsseite verpufft jede Effizienzverbesserung im Rebound.

DeepSeek hat gezeigt, dass effizienter KI-Einsatz möglich ist. SubQ zeigt, dass auf Architekturebene noch viel Spielraum steckt. Was beides nicht zeigt: dass Effizienz allein die Klimagleichung löst.

Überleg heute, welche Deiner KI-Anfragen das teuerste verfügbare Modell wirklich brauchen – und welche Du auf ein kleineres umleiten könntest.