Was zwischen Modell und Wertschöpfung fehlt

Foundation Models sind verfügbar, leistungsfähig und werden täglich billiger in der Nutzung. Jede Organisation kann eine API aufrufen und in Sekunden eine Antwort bekommen. Aber Verfügbarkeit ist nicht Strategie. Die meisten Unternehmen konsumieren heute Tokens. Sie fassen E-Mails zusammen, generieren Entwürfe, lassen sich Meetings protokollieren und das alles ohne eine Orchestrierungsschicht, die diese Tokens in systematischen, wiederholbaren Wert verwandelt. Sie haben ein Modell. Sie haben kein Produktionssystem.

Jensen Huang hat auf der GTC eine Botschaft platziert, die über die Hardware hinausgeht: Jede Organisation braucht eine OpenClaw-Strategie. Auf den ersten Blick klingt das nach dem nächsten Plattform-Pitch eines GPU-Herstellers, dessen Umsatz mit jedem verbrauchten Token steigt. Diese Spannung sollte man nicht ignorieren. Im Kern beschreibt Huang aber etwas, das unabhängig von Nvidias Geschäftsinteressen stimmt. Nicht das Modell ist die Revolution, es ist der Harness. Es ist die Orchestrierungsschicht, die Tokens in kontextbezogenen, produktiven Output verwandelt. Wer keinen Harness hat, hat keine KI-Strategie, sondern eine API-Rechnung.

Betrachten wir die aktuelle Entwicklung durch die Linse von Carlota Perez, verlassen wir die Installationsphase, in der das Kapital und die Aufmerksamkeit den Foundation Models selbst galten, den Trainingsclustern, den Benchmark-Rekorden und treten in die Deployment-Phase ein. In dieser Phase migriert der Wert von der Technologie zur Anwendungsschicht, zu den organisatorischen Praktiken und komplementären Innovationen, die die Technologie erst produktiv machen. Der Harness ist das Artefakt dieser Phase. Und wie bei jeder technologischen Revolution entscheidet nicht der Motor über den Erfolg, sondern das Fahrzeug, das um ihn herum gebaut wird.

1. Was ein Harness ist

Was ist ein Harness? Im einfachsten Fall: Code als Text. Regeln, Instruktionen, Skripte (z.B. Hooks), Spezifikationen. Alles, was einem KI-System sagt, was es im jeweiligen Kontext tun soll. Ein Harness kann ein Security-Audit eines Software-Features orchestrieren, eine Wettbewerbsanalyse strukturieren oder die Redaktion eines Essays leiten. Wie OpenClaw ist er eine Anweisung, eine Schrittfolge. Das KI-System führt verschiedene Eingaben zu unterschiedlichen Zeiten aus und sucht sich dafür die richtigen Dateien in den richtigen Ordnern (oder im Falle eines MCP externe Datenquellen oder Software), die weitere Anweisungen enthalten.

Der Verbrennungsmotor hat die Welt nicht allein verändert. Es war das Auto drum herum: Lenkung, Getriebe, Fahrwerk, Karosserie. Der Motor war notwendig, aber nicht hinreichend. Dasselbe gilt für Foundation Models. Sie sind der Motor. Der Harness ist das Fahrzeug.1

Der Unterschied zwischen jemandem, der ein LLM für eine einzelne E-Mail nutzt, und jemandem, der einen Harness betreibt, der Agenten orchestriert (Code-Reviews durchführt, Bugs identifiziert, Handelspartner analysiert und dabei entscheidet, wo menschliche Freigabe nötig ist) ist der Unterschied zwischen einem Taschenrechner und einer Fabrik.

Aber wenn der Harness die strategische Schicht ist, dann stellt sich eine Frage: Wer gewinnt diese Schicht? Wird sie von Nvidia durch ein Plattform-Lock-in, bei dem der GPU-Hersteller auch die Orchestrierung definiert, dominiert? Wird sie von Open-Source-Frameworks wie LangChain fragmentiert? Oder ist sie per Definition organisationsspezifisch, weil der Wert im proprietären Workflow-Wissen steckt, das kein externer Anbieter replizieren kann?

Die Antwort wird darüber entscheiden, wo der ökonomische Wert der nächsten Dekade akkumuliert. Der Harness enkodiert Entscheidungslogik, kontextuelles Wissen und Prozessverständnis, das bisher in den Köpfen von Menschen lebte. Das erzeugt Switching Costs und Switching Costs erzeugen Pfadabhängigkeiten. Die Wahl der Harness-Architektur ist deshalb keine technische Entscheidung, denn sie ist eine strategische Weichenstellung, die die Marktfähigkeit über Jahre hinweg prägen kann.

Aber nur weil Motoren heute für jeden verfügbar sind, baut noch lange nicht jeder ein Auto. Die bloße Existenz von Antriebskraft garantiert noch keine Wertschöpfung. Die wahre Eintrittsbarriere ist nicht der Zugang zum Aggregat, sondern die Fähigkeit, es in ein hochkomplexes Gesamtsystem zu integrieren.

Einen Motor zu kaufen, ist eine Transaktion; ein Fahrzeug zu konstruieren, das diese Kraft sinnvoll auf die Straße bringt und diese Produktionsleistung kapitalisiert, bleibt die Domäne der Wenigen. Der ökonomische Graben wird also nicht durch den Besitz von Rechenpower gebildet, sondern durch die Kunst des Harness-Engineerings.

Zwar wird die Kunst des Harness-Engineerings über die Zeit zugänglicher werden, doch der frühe Aufbruch ist eine Investition in die eigene Souveränität. Wer heute lernt, das System selbst zu beherrschen, verhindert, morgen in die Abhängigkeit vordefinierter Pfade zu geraten.

2. Die Token-Ökonomie: Return pro Token, nicht Verbrauch pro Kopf

Azeem Azhar beschreibt, dass sein Harness 100 Millionen Tokens am Tag verarbeitet. Vor zwei Jahren waren es 100.000. Er argumentiert, dass dieser Durchsatz seinem Unternehmen konkreten Wert einbringt. Silicon Valley hat daraus bereits ein Statussymbol gemacht: Leader-Dashboards, die Mitarbeiter mit dem größten Token-Verbrauch auf den Thron heben. Stichwort: Tokenmaxxing.2

Das ist das falsche Signal. Konsum ist kein Wertindikator. Token-Leaderboards belohnen Volumen, nicht Wirkung und eine Token-Ökonomie, die auf reinem Durchsatz basiert, kann nicht gesund sein. Die entscheidende Frage ist nicht, wer die meisten Tokens verbrennt, sondern wer den höchsten Return pro Token erzielt.

Wenn ein Agentensystem 50.000 Tokens verbraucht, um eine Wettbewerbsanalyse zu erstellen, die ein Analyst sonst in acht Stunden Arbeit produziert hätte, dann lassen sich die Token-Kosten gegen die eingesparte Arbeitszeit und die Geschwindigkeit des Ergebnisses rechnen. Aber nur, wenn die Analyse korrekt ist. Hier liegt der blinde Fleck der meisten Token-Ökonomie-Diskussionen. Eine ROI-Analyse ist nur so viel wert wie die Daten, durch die sie verifiziert wurde. Ein Harness, der 100 Millionen Tokens am Tag verarbeitet, ohne systematisch zu prüfen, welcher Anteil des Outputs korrekt ist und welcher menschliche Korrektur erfordert, misst Durchsatz, aber nicht Wertschöpfung.

Je früher ein Unternehmen die Wertstiftung mit den Token-Kosten zusammendenkt (inklusive der Fehlerkosten) und den Return im Blick hat, desto nachhaltiger wird die Integration. Tokens sind keine IT-Kosten, die man im Tech-Budget versteckt. In der Inference-First-Economy sind sie variable Produktionskosten, wie Strom, wie Gehälter, wie Rohstoffe. Wer Tokens deckelt, deckelt nicht die Kosten. Er deckelt die Produktion.

Dabei braucht nicht jede Aufgabe das stärkste Modell. LLMs können tagtägliche kognitiv-repetitive Aufgaben übernehmen. Sie können E-Mails zusammenfassen, Kalendereinträge vorbereiten, erste Entwürfe generieren (mit der Einschränkung, dass auch diese Outputs immer noch Fehler enthalten und Prüfung erfordern). Komplexe Aufgaben, wie Agentensysteme, die mehrstufige Workflows orchestrieren, verbrauchen ein Vielfaches an Tokens und benötigen stärkere Modelle. Die Kompetenz, zu wissen, welches Modell für welche Aufgabe das richtige ist, wird zur strategischen Grundfähigkeit. Es geht nicht darum, immer das beste Reasoning-Modell zu nutzen sondern darum, das passende Modell für die jeweilige Aufgabe zu wählen. Und wenn Inferenz tatsächlich zum universellen Produktionsinput wird, dann ist der Energieverbrauch kein Randthema, sondern eine Randbedingung.

3. Wie eine Harness-Strategie entsteht

Die strategische Nutzung des Harness basiert auf drei entscheidenden Säulen: die der Infrastruktur, der Verifikation und der Governance.

Infrastruktur: lokal oder extern? Training und Inferenz nutzen beide GPU-Speicher, aber ihre Anforderungsprofile sind grundverschieden. Training war die Investitionsphase. Inferenz ist die Produktionsphase: sequentielle Token-Generierung, limitiert durch Memory Bandwidth, die diktiert, wie schnell GPU-Kerne Daten lesen können. Dieses Verständnis ist kein technisches Detailwissen, sondern Produktionswissen. Welche Modelle laufen lokal, welche über externe APIs? Lokale Inferenz – auf eigener Infrastruktur – ist aus Gründen der Sicherheit, der Datenhoheit und des Kostendrucks geboten, wenn Firmendaten nicht durch die Server der großen KI-Plattformen fließen sollen.

Verifikation: Woher weiß der Harness, dass der Output stimmt? Das ist die Frage, die die meisten Harness-Diskussionen nicht stellen. Ein Harness, der autonome Agenten orchestriert, aber keine systematische Prüfung des Outputs einbaut, ist kein Produktionssystem. Wie erkennt der Harness, dass ein Code-Review korrekt war? Dass eine Wettbewerbsanalyse keine fabrizierten Marktdaten enthält? Wo zieht er die Grenze zwischen autonomer Ausführung und menschlicher Freigabe und auf welcher Grundlage? Die Antwort kann in Evals liegen, den systematischen Bewertungsschleifen, die im Verbund zwischen KI und Mensch laufen. Ein Agentensystem kann den Output eines anderen Agenten gegen definierte Kriterien prüfen, Inkonsistenzen flaggen und Konfidenzwerte liefern. Aber die finale Kalibrierung, z.B. was als korrekt gilt, wo die Toleranzgrenzen liegen, welche Fehlerklassen akzeptabel sind, bleibt eine menschliche Entscheidung. Evals sind kein einmaliges Setup. Sie sind ein kontinuierlicher Prozess, der mit dem Harness mitwächst und dessen Autonomiegrenzen justiert. Die wichtigste Funktion eines Harness ist nicht die Steuerung, sondern die Qualitätssicherung.

Governance: Wer entscheidet, was der Harness darf? Wenn ein Agentensystem autonom Code in die Produktion pusht, Handelspartner bewertet oder Projektpläne umstrukturiert, dann ist die Frage, wo die Autonomiegrenze liegt, keine Engineering-Optimierung. Es ist eine Governance-Entscheidung mit rechtlichen und haftungsrelevanten Implikationen. Der EU AI Act beginnt genau solche autonomen Entscheidungsketten zu regulieren. Ein Harness ohne Governance-Rahmen ist nicht nur riskant, er wird in absehbarer Zeit nicht mehr compliant sein.

Die strategische Frage

Nicht nur Unternehmen, sondern jedes Individuum wird für sich herausarbeiten müssen, welchen Harness es braucht. Welche Orchestrierungsschicht die eigenen Herausforderungen abbildet, effizient ist, Wert stiftet und entscheidet, wo menschliche Freigabe nötig ist und wo autonomes Handeln sinnvoll ist. Denn je mehr ein LLM als Sparringpartner genutzt wird, als Werkzeug für kritisches Denken, das Lücken füllt und Perspektivwechsel erzwingt, desto mehr potenziert sich die Nachfrage nach Wissen und Problemlösungen. Jede gute Antwort öffnet neue Horizonte. Das ist kein linearer Verbrauch. Es ist exponentielles Arbeiten.

Einen anspruchsvollen Harness zu bauen, der zwischen Modellen routet, Verifikation einbaut und Token-zu-Wert-Verhältnisse optimiert, erfordert Engineering-Kapazität, Dateninfrastruktur und organisatorische Reife, die nicht gleichverteilt sind. Die großen Unternehmensberatungen haben das erkannt und bereiten sich darauf vor, genau diese Lücke zu füllen. Sie bauen ihre Consultants zu Context Engineers um, die Harnesses für Kunden implementieren, konfigurieren und betreiben. Der Markt für Harness-Implementation wird ein großes Beratungsgeschäft und wer heute nicht selbst baut, wird morgen dafür bezahlen, dass andere es für einen tun. Die politische Ökonomie der Harness-Schicht verdient eine schärfere Analyse als die meisten KI-Strategiediskussionen ihr zugestehen.

Die Modelle sind da. Die Inferenz ist billig. Die Chips werden schneller. Was fehlt, ist der Harness. Die Schicht, die entscheidet, ob aus billigen Tokens Wert entsteht oder Verschwendung. Und die Schicht, die prüft, ob der erzeugte Wert real ist oder nur so aussieht. Wer das versteht, baut. Wer es nicht versteht, konsumiert. Und Konsum war noch nie eine Strategie.

Footnotes

  1. Azeem Azhar, Jensen’s OpenClaw Thesis, Exponential View.

  2. Tokenmaxxing, The New York Times.