← Zur Übersicht
KI & Automatisierung

KI-Agenten in Produktion überwachen: Observability-Tools und Best Practices

KI-Agenten laufen in Produktion — aber wer überwacht die Überwacher? Tools wie LangSmith, Langfuse und Arize machen Agent-Verhalten sichtbar.

KI-Agenten in Produktion überwachen: Observability-Tools und Best Practices
  • #KI-Agenten
  • #Observability
  • #Monitoring
  • #LangSmith
  • #Langfuse
  • #Produktion
  • #DevOps
  • #LLM-Ops

Du hast deinen KI-Agenten gebaut. Er recherchiert, schreibt E-Mails, deployed Code, verwaltet Termine. In der Entwicklung lief alles wunderbar. Dann setzt du ihn in Produktion — und plötzlich hast du keine Ahnung mehr, was er eigentlich tut.

Willkommen in der Realität von Agentic AI in Production. Und willkommen beim Problem, das gerade die halbe Branche beschäftigt: Wie überwacht man etwas, das eigenständig Entscheidungen trifft?

Das Problem: Agenten sind keine APIs

Bei einer klassischen REST-API ist Monitoring simpel: Response Time, Status Codes, Error Rate. Du weißt genau, was reingeht und was rauskommt. Bei einem KI-Agenten? Da geht ein vager Auftrag rein — “Fass die letzten Support-Tickets zusammen und erstelle einen Report” — und was dann passiert, ist eine Blackbox aus Tool-Calls, LLM-Anfragen, Zwischenentscheidungen und externen API-Aufrufen.

Ein einzelner Agent-Run kann dutzende Schritte umfassen:

  • Mehrere LLM-Calls mit unterschiedlichen Prompts
  • Tool-Aufrufe (Datenbank, API, Dateisystem)
  • Entscheidungspunkte (“Soll ich nachfragen oder weitermachen?”)
  • Retry-Logik bei Fehlern
  • Token-Verbrauch, der je nach Komplexität zwischen 500 und 50.000 variiert

Traditionelles APM (Application Performance Monitoring) wurde nicht dafür gebaut. Und genau deshalb explodiert gerade ein neues Tooling-Ökosystem.

Die drei Säulen der Agent-Observability

Wer KI-Agenten ernsthaft in Produktion betreiben will, braucht Sichtbarkeit in drei Dimensionen:

1. Tracing: Was hat der Agent getan?

Das Fundament. Jeder Agent-Run muss als Trace erfasst werden — eine verschachtelte Abfolge von Spans, die jeden Schritt dokumentieren. Ähnlich wie bei Distributed Tracing in Microservices, nur dass die “Services” hier LLM-Calls, Tool-Invocations und Entscheidungspunkte sind.

Ein guter Trace zeigt dir:

  • Welcher Prompt wurde an welches Modell geschickt?
  • Wie lange hat jeder LLM-Call gedauert?
  • Welche Tools wurden aufgerufen und mit welchen Parametern?
  • Wo hat der Agent eine Entscheidung getroffen und warum?
  • Wie viele Tokens wurden verbraucht (und was hat das gekostet)?

2. Evaluation: War das Ergebnis gut?

Tracing sagt dir was passiert ist. Evaluation sagt dir ob es richtig war. Das ist bei KI-Agenten deutlich schwieriger als bei deterministischen Systemen, weil “richtig” oft subjektiv ist.

Moderne Eval-Ansätze nutzen LLM-as-a-Judge — ein zweites Modell bewertet die Ausgabe des ersten. Nicht perfekt, aber skalierbar. In Kombination mit menschlichem Feedback entsteht ein Kreislauf, der die Agent-Qualität über Zeit messbar macht.

3. Alerting: Wann läuft etwas schief?

Behavioral Baselines sind der Schlüssel. Du definierst, wie sich ein “normaler” Agent-Run verhält — durchschnittliche Dauer, typische Tool-Nutzung, erwarteter Token-Verbrauch — und wirst alarmiert, wenn Abweichungen auftreten.

Seit April 2026 geht das Konzept noch weiter: Exabeam hat mit “Agent Behavior Analytics” (ABA) ein System vorgestellt, das KI-Agenten wie potenzielle Insider-Bedrohungen behandelt. Klingt paranoid? Ist es auch. Aber wenn ein Agent plötzlich zehnmal so viele API-Calls macht oder auf Daten zugreift, die er normalerweise nicht braucht, willst du das wissen.

Die Tools: Wer macht was?

Der Markt für Agent-Observability ist jung, aber die Konturen werden klarer. Drei Plattformen haben sich als Referenzen etabliert:

LangSmith (LangChain)

Der Platzhirsch, wenn du im LangChain/LangGraph-Ökosystem arbeitest. LangSmith bietet tiefes Tracing mit verschachtelten Spans, Annotation-Queues für menschliches Feedback und Prompt-Management. Über 15 Milliarden Traces wurden bisher verarbeitet — das ist beeindruckend für ein Tool, das erst seit anderthalb Jahren existiert.

Stärken: Beste Integration mit LangChain, visuelles Debugging von Multi-Step-Agents, eingebaute Evaluations.

Schwächen: Außerhalb des LangChain-Ökosystems deutlich weniger nützlich. Kein Self-Hosting.

Langfuse (Open Source)

Mein persönlicher Favorit für Teams, die Datenhoheit brauchen. Langfuse ist MIT-lizenziert, self-hostbar und nutzt OpenTelemetry als Standard. Mit über 9.000 GitHub-Stars hat es eine aktive Community und unterstützt praktisch jeden LLM-Stack — nicht nur LangChain.

Stärken: Self-Hosting, offener Standard (OTel), Kosten/Latenz-Dashboards, framework-agnostisch.

Schwächen: Evaluations sind weniger ausgereift als bei LangSmith. Enterprise-Features (SSO, RBAC) nur in der Paid-Version.

Arize (Phoenix)

Kommt aus der klassischen ML-Observability-Ecke und bringt entsprechend starke Drift-Detection und Anomalie-Erkennung mit. Phoenix, die Open-Source-Komponente, bietet Span-Level-Traces und Performance-Analytics über verschiedene Modell-Versionen hinweg.

Stärken: Anomalie-Erkennung, Clustering, Vergleich zwischen Modell-Versionen.

Schwächen: Weniger agent-spezifisch, Evaluations müssen selbst gebaut werden.

Praxisbeispiel: Was ich selbst überwache

Ich betreibe mehrere KI-Agenten im Alltag — von automatisierten Blog-Deployments über E-Mail-Verarbeitung bis zu Code-Reviews. Was ich dabei gelernt habe:

Token-Kosten sind das neue Cloud-Budget. Ein Agent, der unkontrolliert läuft, kann in einer Stunde mehr LLM-Kosten verursachen als dein gesamtes Hosting im Monat. Ich tracke Token-Verbrauch pro Agent-Run und habe Alerts bei Ausreißern. Wenn ein Blog-Post-Agent plötzlich 50.000 statt der üblichen 8.000 Tokens verbraucht, stimmt etwas nicht.

Fehler sind leise. KI-Agenten crashen selten mit einem 500er. Stattdessen liefern sie plausibel klingende, aber falsche Ergebnisse. Ohne Evaluation merkst du das erst, wenn ein Kunde sich beschwert — oder wenn der Blog-Post mit erfundenen Fakten online geht.

Retry-Schleifen sind gefährlich. Ein Agent, der bei einem fehlgeschlagenen Tool-Call in eine Retry-Schleife gerät, kann exponentiell Tokens verbrennen. Timeouts und Circuit Breaker sind Pflicht. Wie ich in meinem Post über Sandboxing beschrieben habe: Begrenzung ist kein Nice-to-have, sondern Überlebensstrategie.

Der neue Observability-Stack

Wenn ich heute einen Agent-Stack für Produktion aufsetzen würde, sähe mein Monitoring so aus:

Layer 1 — Infrastruktur: Klassisches Monitoring (CPU, Memory, Network) plus Container-Metriken. Hier reicht Prometheus/Grafana oder was du schon hast.

Layer 2 — Agent-Tracing: Langfuse oder LangSmith für End-to-End-Traces jedes Agent-Runs. Jeder LLM-Call, jeder Tool-Aufruf, jede Entscheidung wird erfasst.

Layer 3 — Evaluation: Automatisierte Qualitätschecks via LLM-as-Judge. Stichprobenartig, nicht für jeden Run (zu teuer), aber genug für statistisch relevante Quality-Scores.

Layer 4 — Cost Tracking: Token-Verbrauch und Kosten pro Agent, pro Task-Typ, pro Zeitraum. Mit Budgets und Alerts.

Layer 5 — Behavioral Monitoring: Baselines für “normales” Agent-Verhalten. Abweichungen triggern Alerts. Das ist die Lehre aus dem OWASP Agentic Top 10: Agenten, die sich plötzlich anders verhalten, sind ein Sicherheitsrisiko.

Was kommt als Nächstes?

Kyndryl hat gerade “Agentic Service Management” vorgestellt — ein Framework, das Agenten wie ITSM-Services behandelt, mit Maturity-Assessment und Governance-Blueprints. Das klingt erstmal nach Enterprise-Buzzword-Bingo, aber der Kern ist richtig: Wenn KI-Agenten in Unternehmen die gleichen Aufgaben wie Mitarbeiter übernehmen, brauchen sie auch vergleichbare Governance.

Die Konvergenz ist absehbar: Agent-Observability wird kein separates Tooling-Silo bleiben, sondern in bestehende DevOps-Plattformen integriert. Datadog, New Relic und Dynatrace arbeiten alle an LLM-Monitoring-Features. In einem Jahr wird “Agent Traces” so selbstverständlich sein wie “Request Traces” heute.

Mein Fazit

KI-Agenten ohne Observability in Produktion zu betreiben, ist wie ein Auto ohne Tacho zu fahren — es funktioniert eine Weile, bis es das nicht mehr tut. Die Tools sind da, die Best Practices kristallisieren sich heraus. Was fehlt, ist bei vielen Teams die Erkenntnis, dass “der Agent läuft” nicht dasselbe ist wie “der Agent funktioniert”.

Fang mit Tracing an. Dann Kosten-Monitoring. Dann Evaluation. In dieser Reihenfolge. Und wenn du schon beim Thema Sicherheit bist: Observability ist keine Komfort-Funktion — es ist deine erste Verteidigungslinie gegen Agenten, die leise aufhören, das Richtige zu tun.

Thorsten Heß – KI-Beratung

Kann dein Unternehmen von KI-Automation profitieren?

Die meisten Teams verschenken Stunden pro Woche an Aufgaben, die KI längst übernehmen könnte. Lass uns gemeinsam herausfinden, wo bei dir das größte Potenzial liegt.

Kostenlos beraten lassen