Empfehlung der Redaktion

Test: Ist dein „KI-Agent” wirklich ein Agent – oder nur ein Chatbot mit neuem Etikett?

Anja Prosch 22. April 2026 17 Min. Lesezeit

Test: Is Your "AI Agent" an Actual Agent or a Chatbot in a New Label

Die Zahlen, die die Frage rahmen

Im Bericht The GenAI Divide: State of AI in Business aus dem Jahr 2025 stellte die NANDA-Initiative des MIT fest, dass 95 Prozent der Pilotprojekte mit generativer KI in Unternehmen keinen messbaren Effekt auf die Gewinn- und Verlustrechnung hatten. Gartner ergänzte im Juni 2025 einen zweiten Datenpunkt: Bis Ende 2027 werden mehr als 40 Prozent aller Projekte mit agentischer KI abgebrochen – wegen steigender Kosten, unklarem Geschäftswert und unzureichender Risikokontrollen.

Ein KI-Agent und ein Chatbot sind nicht dasselbe System. Trotzdem werden sie oft unter dem gleichen Label verkauft.

Ein Chatbot gleicht Muster mit einer Knowledge Base ab oder leitet eine LLM-Anfrage weiter und gibt den Text zurück. Er reagiert Schritt für Schritt. Er hält keinen sinnvollen Zustand über mehrere Sitzungen hinweg. Er führt keine mehrstufigen Aufgaben aus. Und er erkennt nicht, wann seine eigene Antwort falsch ist.

Ein KI-Agent ist dagegen darauf ausgelegt, ein Ziel entgegenzunehmen, es in Schritte zu zerlegen, Tools zu nutzen (Suche, APIs, Datenbanken, CRM, ERP), den Zustand zu halten und ein überprüfbares Ergebnis zu liefern. Ein echter Agent nennt die Quelle jeder Aussage, aktualisiert seine Antwort, wenn die Quelle sich ändert, und übergibt an einen Menschen, sobald er an eine Grenze stösst, die er nicht selbst auflösen kann.

Diese Unterscheidung zählt, weil Einkaufsteams Verträge für das zweite System unterschreiben – und das erste deployen.

Test: Ist dein „KI-Agent" wirklich ein Agent – oder nur ein Chatbot mit neuem Etikett?

Warum daraus ein Budgetproblem wird

Das Muster lässt sich im Feld beobachten. Eine Head of Customer Operations gibt einen „KI-Agenten” für Sales Enablement frei. Die Vendor-Demo wirkte flüssig. Drei Monate später meldet das Vertriebsteam drei Symptome. Das System erfindet Wettbewerbs-Features, die es nicht gibt. Es gibt auf der Website und auf WhatsApp unterschiedliche Preise an. Es produziert zwei verschiedene Antworten auf dieselbe Frage, gestellt zweimal vom gleichen Nutzer.

Die Ursache ist meist identifizierbar. Das eingesetzte System ist ein Chatbot, der um ein Large Language Model gewickelt ist und auf einer locker strukturierten FAQ sitzt. Es gibt keine Ingestion-Pipeline, kein Benchmark Dataset, keine Retrieval-Logik für Vergleichsfragen, keine Memory-Schicht und keine Instrumentierung, die Halluzinationen abfängt, bevor sie beim Kunden ankommen.

Das Projektbudget ist ausgegeben. Aber das Team muss dem CFO jetzt erklären, warum die Verlängerung nicht stattfindet. Genau das ist das Szenario, das die 40-Prozent-Abbruchquote von Gartner beschreibt.

Die sieben Dimensionen, die Agent und Chatbot trennen

Der Unterschied zwischen einem Agenten und einem Chatbot lässt sich entlang von sieben beobachtbaren Dimensionen messen. Eine nicht-technische Person kann ein System in unter einer Stunde dagegen bewerten – ohne Engineering-Beteiligung.

Dimension	Verhalten eines Chatbots	Verhalten eines echten Agenten
Nachverfolgbarkeit der Quelle	Paraphrasiert, ohne Verweis	Nennt Dokument, URL oder Datensatz
Konsistenz über Formulierungen	Driftet zwischen Varianten	Liefert jedes Mal dieselben Fakten
Wettbewerbsvergleich	Erfindet Features	Zieht aus einer verifizierten Matrix
Kanalübergreifende Konsistenz	Antworten unterscheiden sich pro Kanal	Eine gemeinsame Knowledge-Layer
Live-Update-Pipeline	Liefert veraltete Daten	Spiegelt die Quelle im Sync-Fenster
Benchmark Dataset	Keine dokumentierte Genauigkeit	20–50 „must-get-right” Q&As getrackt
Erkennen eigener Grenzen	Plausibel klingender Versuch	Lehnt ab und eskaliert

Mach den Diagnose-Test

Wir haben ein interaktives Self-Assessment gebaut, das in rund fünf Minuten durch alle sieben Dimensionen führt, einen Score von maximal 14 Punkten zurückgibt und das Ergebnis in drei Stufen einordnet: Real Agent Architecture, Hybrid Partial Infrastructure oder Chatbot in einem Agent-Label. Es ist kostenlos, läuft im Browser und richtet sich an Buyer und Projekt-Owner, die ein System vor dem Renewal prüfen wollen.

KI-Agent oder Chatbot? — Lab51 Selbsttest

Selbsttest · 7 Fragen · ~5 Min

KI-Agent oder Chatbot?

Eine 7-Fragen-Diagnose für B2B-Entscheider, um zu prüfen, ob ein eingesetztes KI-System tatsächlich eine Agent-Architektur ist oder ein Chatbot unter neuem Label.

Start

Wo Lab51 ansetzt

Die meisten der oben beschriebenen Fehler entstehen, weil die unglamourösen Teile des Builds übersprungen werden. Ingestion, Normalisierung, Retrieval-Design, Benchmark-Validierung und Integrationsarchitektur.

Der Ansatz bei Lab51 startet beim Geschäfts-Workflow und arbeitet rückwärts in den technischen Stack. Bevor irgendein Modell ausgewählt wird, führen wir ein Knowledge Audit und Source Mapping durch, um jeden Input zu identifizieren, den der Agent braucht – inklusive der Negativliste mit Themen, die er niemals ausgeben darf. Wir bauen eine automatisierte Ingestion-Pipeline, die die Knowledge Base in einem definierten Intervall aktuell hält, nicht nur als einmaligen Snapshot. Wir strukturieren das Retrieval rund um vordefinierte Vergleichsmatrizen für Wettbewerbs- und Produktfragen, sodass der Agent nicht raten muss. Wir deployen wo möglich über Model Context Protocol Connectors, damit die Knowledge-Layer über Website, WhatsApp, Messenger, TikTok und regionale Plattformen hinweg konsistent bleibt. Wir validieren gegen ein Benchmark Dataset, das der Kunde vor dem Launch abnimmt, und liefern bei der Übergabe einen Accuracy Report mit.

Das ist die Architektur, die alle sieben Tests bestehen soll. Die komplette Methodik, Beispiele für KI-Integration, Projektumfänge und unseren Ansatz für KI-Strategie und KI-Implementierung findest du auf lab51.io.

Warum jetzt

Wenn du ein KI-Projekt verantwortest, dessen Verlängerung in Q2 oder Q3 2026 ansteht, ist dieser Diagnose-Test vor dem Review-Meeting die günstigste Versicherung, die du bekommen kannst. Besteht das System, hast du Belege für das Finanzgespräch. Besteht es nicht, hast du Zeit, die Architektur zu reparieren oder die Ausgaben umzulenken, bevor die nächste Rechnung fällig wird. Die Entscheidung, ob eine KI-Automatisierung weiterläuft oder gestoppt wird, ist bei einer 40-Prozent-Abbruchquote keine Nebensache mehr. Sie ist Teil der KI-Strategie, die du ohnehin deinem Vorstand vorlegen musst.

Wenn der Diagnose-Test Fragen zu deinem aktuellen Setup aufwirft, buche eine kostenlose 30-minütige Beratung mit einem unserer Senior Engineers. Bring deinen Vendor-Vertrag mit, deine Systemarchitektur oder einfach nur den Score aus dem obigen Test. Wir gehen ihn mit dir durch, beantworten die konkreten technischen Fragen und sagen dir, was wir anders bauen würden.

Die Lücke zwischen „wir haben einen KI-Agenten deployed” und „wir haben einen Chatbot mit einem Agent-Label deployed” ist messbar. Ein Buyer mit sieben Fragen und einer Stunde Zeit kann den Unterschied erkennen. Die meisten Projekte, die bis 2027 abgebrochen werden, laufen heute schon auf Systemen, die den Test nicht bestehen würden. Die eigentliche Arbeit besteht darin zu wissen, welches System du hast – bevor jemand anderes darauf hinweist.