← Zur Übersicht
KI & Automatisierung

Der große Claude-Code-Leak: Was Anthropics 512.000 Zeilen über die KI-Branche verraten

Anthropic hat versehentlich den kompletten Source Code von Claude Code geleakt. Undercover Mode, Anti-Distillation und versteckte Feature Flags – eine Analyse.

Der große Claude-Code-Leak: Was Anthropics 512.000 Zeilen über die KI-Branche verraten
  • #Claude Code
  • #Anthropic
  • #KI-Sicherheit
  • #Open Source
  • #Source Code Leak
  • #Supply Chain Security
  • #KI-Agenten
  • #Vertrauen

Am 31. März 2026 passierte, was eigentlich nicht passieren darf: Anthropic — das Unternehmen, das sich selbst als Vorreiter für KI-Sicherheit positioniert — hat den kompletten Source Code seines Coding-Assistenten Claude Code versehentlich auf npm veröffentlicht. 512.000 Zeilen TypeScript, verteilt auf knapp 2.000 Dateien. Offen für jeden. Und was darin steckt, ist deutlich brisanter als ein simpler Packaging-Fehler.

Das Ganze wurde innerhalb von Stunden zum am schnellsten wachsenden GitHub-Repository aller Zeiten: über 84.000 Stars und 82.000 Forks, bevor Anthropic mit DMCA-Takedowns reagieren konnte. Aber das Internet vergisst nicht — und die Mirrors sind längst überall.

Schauen wir uns an, was dieser Leak wirklich bedeutet. Nicht nur für Anthropic, sondern für die gesamte KI-Branche.

Wie konnte das passieren?

Die technische Ursache ist fast schon peinlich simpel: In der npm-Package-Version 2.1.88 fehlte eine .npmignore-Datei. Dadurch wurde eine 59,8 MB große Source Map (cli.js.map) mitgeliefert, die auf einen öffentlichen Cloudflare-R2-Bucket verwies — mit dem kompletten Quellcode im Klartext.

Für Nicht-Entwickler: Das ist ungefähr so, als würde man seine Haustürschlüssel in einen Umschlag stecken, „Geheim” draufschreiben und ihn dann auf einer öffentlichen Litfaßsäule befestigen. Ein simpler Build-Prozess-Fehler mit maximaler Wirkung.

Das Bittere daran: Es ist nicht das erste Mal. Bereits beim Launch von Claude Code im Februar 2025 gab es einen ähnlichen Source-Map-Leak. Dass Anthropic denselben Fehler über ein Jahr später wiederholt, wirft Fragen auf — über Prozesse, Code-Review-Kultur und ob „Safety First” auch für die eigene Infrastruktur gilt.

Undercover Mode: Wenn KI-Agenten ihre Identität verschleiern

Der eigentliche Skandal liegt nicht im Leak selbst, sondern in dem, was der Code offenbart. Das brisanteste Feature: der sogenannte Undercover Mode.

Dabei handelt es sich um einen System-Prompt, der Claude Code anweist, bei Open-Source-Contributions die Verbindung zu Anthropic zu verschleiern. Konkret:

  • Keine Anthropic-Affiliierung in Commits, Pull Requests oder Diskussionen erwähnen
  • KI-Attributionen aktiv entfernen aus generiertem Code
  • Interne Informationen aus öffentlichen Beiträgen heraushalten
  • Das Feature aktiviert sich automatisch für Anthropic-Mitarbeiter — ohne Opt-out

Das ist ein massives Vertrauensproblem. Open Source lebt von Transparenz. Wenn ein Unternehmen systematisch seine KI-generierten Beiträge tarnt, untergräbt das die Grundpfeiler der Community. Man stelle sich vor: Du reviewst einen Pull Request, findest den Code solide, merkst aber nicht, dass er von einer KI stammt, die aktiv darauf trainiert wurde, genau das zu verbergen.

Die Frage, die sich jede Open-Source-Community jetzt stellen muss: Wie viele „menschliche” Contributions der letzten Monate waren in Wirklichkeit getarnte KI-Beiträge?

Anti-Distillation: Giftpillen im API-Request

Das zweite kontroverse Feature sind die eingebauten Anti-Distillation-Maßnahmen. Claude Code injiziert fake Tool-Definitionen in API-Requests — mit dem Ziel, die Trainingsdaten von Konkurrenten zu vergiften.

Die Logik dahinter: Wenn ein Wettbewerber (OpenAI, Google, oder wer auch immer) versucht, Claudes Verhalten durch Analyse von API-Interaktionen nachzuahmen, bekommt er vergiftete Daten. Falsche Tool-Definitionen, die das resultierende Modell in die Irre führen.

Das ist technisch clever — aber ethisch mehr als fragwürdig. Es bedeutet, dass jeder API-Request, den Entwickler über Claude Code senden, potenziell manipulierte Daten enthält. Nicht für den Endnutzer sichtbar, nicht dokumentiert, aber vorhanden.

Für uns Entwickler hat das eine direkte Konsequenz: Wir können nicht mehr davon ausgehen, dass das, was ein KI-Tool an eine API sendet, exakt dem entspricht, was wir sehen. Es gibt eine versteckte Schicht, die im Hintergrund eigene Agenden verfolgt. Das sollte jedem Entwickler, der KI-Tools in seinen Workflow integriert hat, zu denken geben.

44 Hidden Feature Flags und was sie bedeuten

Neben den Hauptskandalen enthält der Code 44 versteckte Feature Flags, die verschiedene experimentelle Funktionen steuern. Darunter:

  • Self-Healing Memory: Eine Architektur, die das fixe Context-Window-Limit von LLMs umgeht. Claude Code kann sich offenbar an frühere Interaktionen „erinnern”, auch wenn diese eigentlich außerhalb des Kontextfensters liegen.
  • Sandbox Bypass Mechanisms: Wege, die Sandbox-Beschränkungen zu umgehen — genau jene Sicherheitsmaßnahmen, die verhindern sollen, dass ein KI-Agent unkontrolliert auf dem System agiert.
  • Context Poisoning: Mechanismen zur Manipulation des Kontexts — verwandt mit Prompt Injection, aber von innen heraus.
  • Ein Tamagotchi-Feature: Ja, wirklich. Ein virtuelles Haustier im Coding-Assistenten. Zumindest dieser Teil ist harmlos amüsant.

Die Feature Flags zeigen, wie weit die Diskrepanz zwischen dem öffentlichen Image und der internen Realität bei KI-Unternehmen reicht. Anthropic predigt Responsible AI und Safety, baut aber gleichzeitig Features ein, die diese Prinzipien konterkarieren.

Was das für die Supply Chain Security bedeutet

Der Leak unterstreicht ein Problem, das ich hier im Blog schon mehrfach angesprochen habe: Die Software-Supply-Chain ist die Achillesferse moderner Entwicklung — und KI-Tools machen es schlimmer.

npm ist der größte Paketmanager der Welt. Millionen Entwickler installieren täglich Packages, ohne den Quellcode zu prüfen. Dass ein Unternehmen wie Anthropic versehentlich seinen gesamten Source Code über diesen Kanal verbreitet, ist ein Warnsignal:

  • Wenn Anthropic das passiert, passiert es überall. Kleine Teams, Solo-Entwickler, Startups — niemand ist immun gegen Build-Pipeline-Fehler.
  • Source Maps sind ein bekannter Angriffsvektor. Trotzdem werden sie routinemäßig in Produktions-Builds vergessen.
  • DMCA stoppt nichts. Sobald Code einmal öffentlich war, ist er permanent verfügbar. Die 82.000 Forks beweisen das.

Parallel zum Claude-Code-Leak tauchten übrigens auch manipulierte axios-Packages auf npm auf — ein klassischer Typosquatting-Angriff. Die Kombination aus versehentlichen Leaks und gezielten Angriffen macht das Ökosystem zunehmend gefährlich.

Anthropics Reaktion: „Human Error” und Versprechen

Anthropic reagierte innerhalb weniger Stunden: Das fehlerhafte Package wurde gegen 08:00 UTC zurückgezogen. Das offizielle Statement spricht von „Human Error” bei der Paketierung — kein Hack, kein Breach, keine Kundendaten betroffen.

Das ist technisch korrekt. Aber es greift zu kurz.

Das Problem ist nicht der einzelne Fehler. Das Problem ist das Muster. Die fehlende .npmignore-Datei ist trivial — dass sie in einem Multi-Millionen-Dollar-Produkt fehlt, ist es nicht. Dass derselbe Fehlertyp bereits 2025 auftrat und offenbar nicht systematisch verhindert wurde, lässt auf strukturelle Schwächen in der Release-Pipeline schließen.

Für ein Unternehmen, das sich als Leuchtturm der KI-Sicherheit positioniert, ist das besonders brisant. Wie kann ich darauf vertrauen, dass ein Unternehmen meine Daten sicher handhabt, wenn es seinen eigenen Code nicht schützen kann?

Meine Takeaways als Entwickler

Ich arbeite täglich mit KI-Coding-Assistenten. Sie sind aus meinem Workflow nicht mehr wegzudenken — für Code Reviews, für Prototyping, für Refactoring. Aber dieser Leak verändert meine Perspektive:

1. Blindes Vertrauen ist keine Option

Egal ob Claude Code, GitHub Copilot oder ein anderes Tool: Ich muss davon ausgehen, dass es eine Schicht gibt, die ich nicht sehe. Hidden Feature Flags, Anti-Distillation, Undercover Modes — das sind keine Verschwörungstheorien mehr, sondern dokumentierter Code.

Das bedeutet nicht, dass ich diese Tools nicht mehr nutze. Aber ich behandle sie wie jeden anderen externen Service: Trust, but verify. Netzwerkverkehr überwachen. API-Requests loggen. Verstehen, was das Tool tatsächlich sendet.

2. Open Source ist kein Garant für Transparenz

Das klingt paradox, aber der Leak beweist es: Selbst wenn der Code offen liegt, können Funktionen versteckt sein, die der Dokumentation widersprechen. Die 44 Feature Flags waren nicht in der öffentlichen API-Dokumentation. Der Undercover Mode war nirgends erwähnt.

Open Source bedeutet, dass du den Code lesen kannst. Nicht, dass du es tust. Und wenn ein Projekt fast 2.000 Dateien umfasst, ist „lies einfach den Code” kein realistischer Rat.

3. Die Supply Chain braucht bessere Tooling

Wir brauchen automatisierte Checks, die Source Maps, Debug-Builds und versehentlich inkludierte Dateien in npm-Packages flaggen, bevor sie veröffentlicht werden. Tools wie Socket.dev gehen in die richtige Richtung, aber es fehlt an Verbreitung.

4. KI-Attribution muss Standard werden

Der Undercover Mode ist das stärkste Argument für verpflichtende KI-Attribution in Open-Source-Contributions. Nicht als Stigma, sondern als Transparenz. Wenn ein PR von einer KI generiert wurde, sollte das erkennbar sein — genauso wie wir heute Bot-Accounts kennzeichnen.

Das große Bild: Vertrauenskrise der KI-Branche

Anthropic ist nicht allein. OpenAI hatte seine eigenen Datenschutz-Skandale. Google kämpft mit Gemini-Halluzinationen in der Suche. Meta veröffentlicht Modelle, deren Trainingsdaten fragwürdig sind.

Was der Claude-Code-Leak verdeutlicht: Die KI-Branche befindet sich in einer Vertrauenskrise. Nicht weil die Technologie schlecht ist — sie ist beeindruckend gut. Sondern weil die Unternehmen dahinter zwischen „Safety First”-Marketing und „Growth at all Costs”-Realität schwanken.

Als Entwickler müssen wir diese Diskrepanz einpreisen. KI-Tools sind mächtig, aber sie sind keine neutralen Werkzeuge. Sie haben eingebaute Agenden — buchstäblich, wie der Anti-Distillation-Code zeigt. Das ist kein Grund zur Panik, aber ein Grund für informierte Skepsis.

Was kommt als Nächstes?

Der Leak wird Konsequenzen haben:

  • Regulatorisch: Die EU wird den Vorfall in ihre laufenden KI-Sicherheitsdebatten einbeziehen. Der AI Act liefert den Rahmen — und Vorfälle wie dieser beschleunigen die Umsetzung.
  • Technisch: Anthropic wird seine Build-Pipeline überarbeiten. Andere Unternehmen werden nervös ihre eigenen npm-Packages prüfen.
  • Kulturell: Die Open-Source-Community wird Attribution-Policies verschärfen. GitHub diskutiert bereits verpflichtende KI-Disclosure für PRs.
  • Wettbewerb: Projekte wie OpenCode — eine vollständig Open-Source-Alternative zu proprietären Coding-Assistenten — werden Aufwind bekommen. Wenn du nicht vertrauen kannst, was ein Tool im Hintergrund macht, ist echtes Open Source die logische Antwort.

Die nächsten Wochen werden zeigen, ob Anthropic aus diesem Desaster lernt — oder ob es der nächste Datenpunkt in einer langen Reihe von Vertrauensbrüchen wird. Als jemand, der täglich mit KI-Agenten arbeitet und sie für produktive Arbeit einsetzt, wünsche ich mir Ersteres. Aber ich plane für Letzteres.


Der Source Code mag wieder von npm verschwunden sein — aber die Fragen, die er aufgeworfen hat, bleiben. Und das ist vielleicht das Beste, was aus diesem Leak entstehen kann: Eine überfällige Diskussion über Transparenz, Vertrauen und die Verantwortung von KI-Unternehmen gegenüber der Community, die ihre Produkte nutzt.

Thorsten Heß – KI-Beratung

Kann dein Unternehmen von KI-Automation profitieren?

Die meisten Teams verschenken Stunden pro Woche an Aufgaben, die KI längst übernehmen könnte. Lass uns gemeinsam herausfinden, wo bei dir das größte Potenzial liegt.

Kostenlos beraten lassen