Viele B2B Unternehmen setzen 2025 auf Voicebots, um Anrufe anzunehmen, Leads zu qualifizieren, Termine zu vereinbaren und CRM-Daten sauber zu erfassen. Oft scheitert das aber an der Latenz. Schon ein bis zwei Sekunden Verzögerung machen den Dialog unnatürlich. Die folgenden Maßnahmen helfen.
Viele Latenzprobleme liegen nicht am Modell, sondern an der Bot-Architektur.
Latenz ist die Zeit zwischen dem gesprochenen Satz eines Anrufers und der hörbaren Antwort des Bots. Im Hintergrund laufen mehrere Schritte: Sprache wird erkannt (Speech-to-Text / STT), von der KI ausgewertet (Large Language Model / LLM), in Text zu Sprache umgewandelt (Text-to-Speech / TTS) und ausgespielt. Wenn diese Schritte nacheinander arbeiten, entstehen Pausen. Im B2B Vertrieb, in dem Anrufer oft ein konkretes Anliegen haben – Angebot, Rückruf, Termin – wirken solche Pausen wie ein Systemfehler.
Darum ist eine schnelle Antwortzeit für Vertrieb und Marketing in B2B entscheidend
Gerade im B2B Umfeld investieren Vertriebs- und Marketingteams viel, um Anrufe (Leads) überhaupt auszulösen – über Performance-Kampagnen, Landingpages oder Call-Extensions. Wenn der Anruf dann in einer „denkenden“ KI hängen bleibt, geht Wert verloren. Kurze Latenzzeiten sorgen dafür, dass
der Dialog natürlich wirkt,
der Anrufer im Gespräch bleibt,
und die gewünschten Daten (etwa Name, Anliegen, Kampagnen-Herkunft) sauber erfasst werden.
Damit wird ein Voicebot von „nice to have“ zu einem echten Baustein im Lead Management - und zu einem echten AI Sales Agents.
Typische Ursachen für Verzögerungen im Sprachdialog
Viele Latenzprobleme kommen gar nicht vom Modell, sondern von der Bot-Architektur:
STT wartet, bis der Sprecher komplett fertig ist.
Das LLM gibt die Antwort erst aus, wenn es vollständig „durchgedacht“ hat.
Die TTS bekommt nur kleine Tokens und klingt deshalb abgehackt.
Externe System-Abfragen (z.B. Kalender, CRM) brauchen 300–600 ms – und der Bot schweigt in der Zeit.
Der Bot kann nicht unterbrochen werden und redet weiter, obwohl der Mensch schon spricht.
Die gute Nachricht: Genau diese Punkte lassen sich mit ein paar klaren Regeln optimieren.
6 Tipps für weniger Latenz im KI-Sprachbot
Damit aus einem theoretisch guten Voicebot ein tatsächlich nutzbarer AI Sales Agent wird, muss die Dialogkette so gebaut sein, dass sie in Echtzeit reagiert – genau darauf zielen die folgenden Maßnahmen:
1. Alles auf einmal: Streaming statt Warten Der gesamte Dialog sollte gestreamt werden: Während der Anrufer spricht, liefert die Spracherkennung bereits Teilergebnisse, das KI-Modell beginnt sofort mit der Antwort und die Sprachausgabe spielt den ersten fertigen Satz direkt ab. So entsteht kein „zuerst zuhören – dann denken – dann sprechen“, sondern ein fließendes Gespräch.
2. So klingt’s menschlich: Ganze Sätze senden Reines Token-Streaming an die TTS lässt die Stimme oft abgehackt wirken, weil der Dienst den Satzkontext nicht kennt. Besser ist ein kurzes Puffern: erst einen vollständigen Satz vom LLM sammeln, dann genau diesen an die Sprachausgabe senden. Die Latenz bleibt niedrig, die Stimme klingt aber deutlich natürlicher – wichtig, wenn Entscheider oder Vertriebspartner anrufen.
3. Stille killt: Mit Mikro-Phrasen überbrücken Manche Aktionen brauchen echte Rechen- oder Abfragezeit, etwa die Kalenderprüfung oder das Übertragen ins CRM. Für den Anrufer fühlt sich Stille in dieser Phase „kaputt“ an. Der Bot sollte deshalb sofort kontextbezogene Füller sprechen wie „Einen Moment, ich prüfe den Termin …“. So bleibt die gefühlte Latenz niedrig, obwohl das System noch arbeitet.
4. Red nicht weiter! Barge-in freischalten Latenz ist nicht nur die Zeit bis zur Antwort, sondern auch die Zeit, bis der Bot wieder still ist. Gute Voicebots hören auch während des Sprechens weiter zu. Sobald der Anrufer dazwischen geht, muss die Ausgabe sofort stoppen und der neue Input verarbeitet werden. Das verhindert Frust und wirkt wie ein echtes Telefonat.
5. Timing ist alles: Sprechpausen fein einstellen Reagiert der Bot zu früh, fällt er dem Anrufer ins Wort. Reagiert er zu spät, wirkt er träge. Eine dynamische Erkennung von Sprechpausen – angepasst an Tempo und Lautstärke – findet den „Sweet Spot“ für den Turn-Wechsel. Im Vertrieb zählt genau dieser Takt, weil dort mehr nachgefragt und schneller gesprochen wird als im klassischen Service.
6. Schnell schlägt schlau: Modelle nach Tempo wählen Für Voice zählt nicht das „größte“ Modell, sondern das, das den ersten Token am schnellsten liefert. Kleinere oder speziell optimierte Modelle sind hier oft im Vorteil. Gleiches gilt für TTS und Hosting: kurze Wege, möglichst nahe Infrastruktur und wenig Netzwerklatenz. So bleibt die Roundtrip-Zeit im Rahmen und der Bot antwortet „in Echtzeit“.
Herausforderungen, die damit zusammenhängen
Je stärker die Pipeline auf Tempo getrimmt wird, desto enger müssen die Leitplanken für die KI sein. Offene Prompts oder sehr lange Antworten erhöhen die Gefahr von Halluzinationen – im Vertrieb ein klarer Risikofaktor, weil falsche Zusagen oder Preise direkt negative Auswirkungen auf das Geschäft haben. Darum gehören zu einer Latenzoptimierung immer auch Validierungen (z.B. von Telefonnummern), feste Dialogpfade für kritische Schritte wie Terminbuchung und konsequentes Logging. Nur so lassen sich Gespräche auswerten und Engpässe in STT, LLM oder TTS gezielt verbessern.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Latenz ist einer der unterschätzten Gründe, warum Voicebots im B2B Vertrieb nicht performen. Wer STT, KI und TTS nicht hintereinander, sondern parallel denkt, wer Stille überbrückt und wer Modelle nach Reaktionszeit auswählt, erreicht Dialoge, die sich wie echte Telefonate anfühlen. Dann wird aus dem Voicebot ein AI Sales Agent, der Leads nicht nur annimmt, sondern sichert und für mehr Umsatz sorgt.
*Martin Hartig ist Head of Solution Management & Consulting beim Softwareanbieter matelso.