Künstliche IntelligenzWarum Voice Technologien in der Kundenkommunikation immer relevanter werden
Von
Veronika Kremsreiter
Bildschirme und Benutzeroberflächen sind im Alltag, beruflich wie privat,allgegenwärtig und wichtig für die Zielgruppenansprache. Wie kann man Kunden jedoch in Situationen erreichen, in denen der Blick auf Smartphone, Tablet oder PC nicht möglich ist? Lesen Sie in diesem Beitrag, welche Rolle KI-basierte Sprachassistenten hier spielen können.
Anwendungen auf Basis Künstlicher Intelligenz (KI) wie beispielsweise Alexa können mit natürlicher Sprache umgehen: Sie verstehen das gesprochene Wort, interpretieren Absichten und reden mit Anwendern. Diese Fertigkeiten eröffnen Unternehmen neue Zielgruppen, Anwendungsfelder und Einsatzszenarien.
An zwei Dingen lässt sich die atemberaubende technische Entwicklung der letzten Jahrzehnte bildhaft festmachen: an Bildschirmen und Benutzeroberflächen. Standen in den 1990ern klobige, beige Kisten unverrückbar auf Schreibtischen, stecken Smartphones und Tablets inzwischen in Hosen-, Akten- oder Handtaschen. War früher das Tippen genau definierter Eingabebefehle notwendig, reicht inzwischen eine einfache Wischgeste. Heute ist Informationstechnologie allgegenwärtig und einfach. Sie durchdrang den Alltag und veränderte Konsumverhalten und Mediennutzung, private Beziehungen und geschäftliche Prozesse, Freizeit und Arbeitswelt.
Aber das ist nicht das Ende der Fahnenstange. Immer häufiger verschwinden Bildschirme ganz, Stimme und Ohr ersetzen Benutzeroberflächen und Gestensteuerung. Treiber der Entwicklung ist die Fähigkeit von Anwendungen auf Basis Künstlicher Intelligenz (KI), mit natürlicher Sprache umzugehen: Sie verstehen das gesprochene Wort, interpretieren Absichten und reden mit Anwendern. Diese Fertigkeiten eröffnen Unternehmen neue Zielgruppen, Anwendungsfelder und Einsatzszenarien. So erreicht Sprachtechnologie auch Menschen, die bisher Berührungsängste mit Technologie hatten. Sie eröffnet das Nutzen von Anwendungen in Situationen, in denen der Blick auf den Bildschirm schwierig oder gefährlich ist – im Auto, auf dem Fahrrad oder beim Sport. Rund um den Einsatz mobiler Anwendungen werden sprachbasierte Angebote eine immer bedeutendere Rolle spielen.
Aber diese erweiterten Möglichkeiten haben ihren Preis: Wird die Interaktion per Sprache bedeutender, geraten Unternehmen im wahrsten Sinne des Wortes aus dem Blick der Kunden. Sollen die Angebote weiter relevant bleiben, müssen die Verantwortlichen neu über Themen wie Markenpositionierung oder -präsenz nachdenken.
Ein intelligenter Gesprächspartner
Forscher können sich schon nicht auf eine Definition von Intelligenz einigen. Auch darüber, was KI ist, lässt sich geradezu vortrefflich streiten. Für die folgenden Ausführungen reicht eine kurze, pragmatische Definition: KI ist ein Teilgebiet der Informatik, das sich mit der Erforschung von Mechanismen des intelligenten menschlichen Verhaltens befasst.
Rund um die Themen Text und Sprache erzielten KI-Anwendungen in den letzten Jahren beeindruckende Fortschritte. Die Stichworte dazu sind:
Natural Language Processing: Sprache ist nicht eindeutig und geprägt von Stilmitteln. Trotzdem erkennen Systeme die Zusammenhänge und Bedeutungen gesprochener Texte immer besser.
Natural Language Generation: Durch Textgenerierung erzeugt ein System Audiosignale, sodass Informationen per Sprache an den Anwender vermittelt werden.
Speech-to-text: Anwendungen wandeln gesprochene Worte in Text um.
Diese Technologien sind flächendeckend verfügbar, sie sind die Grundlage für Sprachassistenten wie Chatbots. Diese stecken in Smartphones ebenso wie in Smartspeakern, in Autos und Uhren. Solche Systeme ersetzen das Aufrufen von Apps oder Programmen durch das gesprochene Wort. Dies betrifft einerseits die Interaktion mit Geräten: Von „Rufe Stefan an“ über „Stelle den Wecker auf 05.45 Uhr“ bis zu „Spiele 1990er Alternative Music“ – das Smartphone kann für diese und ähnliche Aktivitäten in der Hosentasche bleiben. Andererseits verändert sich aber auch das Suchverhalten: Voice Search über mobile Endgeräte folgt anderen Gesetzmäßigkeiten als die „klassische“ Suche über die Tastatur. Die wesentlichen Unterschiede sind das Suchverhalten der Anwender, die Präsentation der Ergebnisse und die Informationen über den Kontext der Nutzung.
Eine typische Suchanfrage – am Desktop oder über ein mobiles Endgerät – besteht im Durchschnitt aus drei Worten. Diese Keywords sind die Grundlage für das Optimieren von Webseiteninhalten. Marketingexperten erstellen Texte so, dass sie bestens zu den für das eigene Angebot relevanten Suchbegriffen passen. Sprachsuchen sind länger und häufig auch präziser. Aus „Wetter Dortmund morgen“ wird „Wie wird das Wetter hier morgen Nachmittag um 16.00 Uhr sein?“. Aus „Absatzzahlen Auto Deutschland“ wird „Wie viele Autos wurden 2019 in Deutschland verkauft?“ Die Marketingverantwortlichen müssen prüfen, wie Anwender gesprochene Suchanfragen formulieren, und dieses Wissen in das Erstellen von Texten einfließen lassen. Die zunehmende Bedeutung von Sprachsuchen wird sich in verändertem Content auf den Webseiten niederschlagen. Die Relevanz von Sprachsuche ist dabei von Branche zu Branche und von Thema zu Thema unterschiedlich. Datenmaterial über das Suchverhalten, das beispielsweise Google bereitstellt, hilft den Verantwortlichen dabei, die eigene Situation abschätzen zu können.
Was die Lage verschärft: Häufig erfolgt nicht nur die Suchanfrage über Sprache, sondern auch die Präsentation der Suchergebnisse. Dann kommt es auf einen Treffer an – und zwar auf den ersten. In den meisten Fällen ziehen Suchmaschinen nur diesen für die Sprachantwort heran. Schon bei klassischen Suchen ist die Platzierung der entscheidende Faktor dafür, gefunden zu werden. „Winner takes it all“ wird beim Thema Voice zum Standard. Der Kampf um Platzierungen wird in eine neue Runde gehen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Ein Faktor gewinnt dabei an Bedeutung: Der Kontext der Nutzung. Wie eingangs erläutert, hängen „Voice“ und „Mobile“ eng zusammen. Unterwegs spielt die Spracheingabe ihre Stärken aus. Mobile Anwendungen stehen für die Sprachinteraktion mit Anwendern zahlreiche Daten über den Kontext der Nutzung zur Verfügung. Je nach Einstellungen reicht das vom Aufenthaltsort bis zur aktuellen Fortbewegungsgeschwindigkeit, von Temperatur bis zum Luftdruck, von Kalenderterminen bis zur Anrufhistorie. Das Berücksichtigen dieser Informationen hilft Suchmaschinen dabei, bessere – im Sinne von zur aktuellen Situation passendere – Ergebnisse zu finden. So spielt bei Sprachsuchen häufig der Standort eine wichtige Rolle. Typisch sind die Suchen nach Restaurants, Geschäften oder Dienstleistern in der unmittelbaren Umgebung. Unternehmen sollten beim Entwickeln von Inhalten für Webseiten diese Bedeutung der Kontextinformationen berücksichtigen.
Einer Stimme ein Gesicht geben
Der Schwerpunkt der bisherigen Ausführungen war Suchen und Gefunden werden rund um den Einsatz von Sprache. Aber Voice ist auch relevant, wenn es um das Schaffen eigener Angebote wie beispielsweise Apps geht. Noch mag die Vorstellung, sich unterwegs mit dem Voice-Bot des lokalen Supermarktes über aktuelle Angebote zu unterhalten, befremdlich wirken. Aber in bestimmten Anwendungsszenarien ist diese Form der Information bequemer und schneller. Und die meisten Abläufe, die bequemer und schneller sind, setzen sich durch. Die Bereitschaft auf Seite der Kunden ist vorhanden: 42 Prozent können sich vorstellen, über einen Smartspeaker mit Unternehmen Kontakt aufzunehmen oder sich zu Produkten zu informieren.
Gespräch über einen Smartspeaker, wie Amazons Alexa oder Google Home, um mit Unternehmen Kontakt aufzunehmen oder sich zu Produkten zu informieren.
(Bild: adesso SE)
Kommunikationsverantwortliche sollten nicht in die Falle laufen, diese Sprachinteraktion isoliert zu betrachten, für Kunden also zur reinen Stimme im Ohr zu werden. Die Entscheider sollten Voice-Prozesse in bestehende Kommunikations- und Serviceprozesse integrieren. Ziel der Aktivitäten ist, durchgängige Abläufe aufzubauen, bei denen Voice eine Komponente der Kommunikation ist. Um beim Beispiel mit der Supermarkt-App zu bleiben: Der Kunde ruft die App auf dem Weg zum Einkauf auf. Die Anwendung stellt – natürlich per Sprachausgabe – Angebote aus dem aktuellen Sortiment vor. In einem Dialog kann der Kunde weitere Produktinformationen oder die Verfügbarkeit in bestimmten Größen oder Farben erfragen. Am Ende entsteht so ein virtueller Einkaufszettel, den der Kunde als Text-Datei abrufen kann. Kurz nach seinem Einkauf erhält der Kunde eine Nachricht mit der Nachfrage, ob er alles bekommen hat oder eventuell online etwas nachbestellen möchte. Und einen Hinweis darauf, dass nächste Woche ein Käse im Angebot ist, der wunderbar zu dem Rotwein passt, den er kaufte.
Dieses Beispiel lässt sich beliebig vertiefen und auf anderen Anwendungsfälle übertragen. Die Idee – nämlich Voice-Interaktionen organisch einzubinden und nicht als getrennte Kommunikationsmöglichkeit zu betrachten – ist immer die gleiche.
Ein weiterer wichtiger Ansatzpunkt, um Markenpräsenz in Sprachanwendungen und -chats zu übertragen, ist das Schaffen unverwechselbarer akustischer Eindrücke. Musik, Jingles oder charakteristische synthetische Stimmen helfen Unternehmen dabei, Markenbildung nicht nur online oder offline, sondern auch in der Welt von Voice-Technologien zu betreiben.
Die Ausführungen zeigen: Die Stimme des Kunden – im wahrsten Sinne des Wortes – wird ein neues Gewicht bekommen. Dies erweitert die Möglichkeiten, verändert aber auch die Anforderungen an das Marketing. Das gesprochene Wort ist eine Dimension, die Entscheider bei Kommunikationsaktivitäten immer häufiger berücksichtigen müssen. Die Zeit ist jetzt günstig, um die dafür notwendigen Voraussetzungen zu schaffen.
*Prof. Dr. Volker Gruhn gründete 1997 die adesso SE mit und ist heute Vorsitzender des Aufsichtsrats, Andreas von Hayn ist bei adesso im Bereich Corporate Communications aktiv.