Heute widme ich mich dem Thema Konzeption von User Interfaces für Sprachassistenten, den sogenannten Voice User Interfaces (VUI). Hierbei handelt es sich um kein grafisches Interface, sondern um eine Interaktionsumgebung, die rein auf Sprache basiert. Das klingt erst einmal etwas abstrakt. Wozu braucht verbale Kommunikation ein Interface?
Die Aufgabe eines Voice User Interface Designers ist herauszufinden beziehungsweise vorzugeben welche Fragen gestellt werden können und zu definieren welche Antworten darauf gegeben werden sollen.
Seit Jahren haben wir gelernt, Computer und andere Geräte mit Hilfe von unterschiedlichen Eingabemedien über visuelle Oberflächen zu bedienen. Knöpfe, Schalter, Tastaturen und Mäuse haben es ermöglicht eindeutige Befehle einzugeben und Aktionen auszulösen. Anfang der 2000er Jahre wurden, mit den ersten Smartphones, UIs eingeführt, die auf Berührung und Gesten reagieren. Seitdem ist Interaktion natürlicher und intuitiver geworden. Auch für die Benutzeroberflächen entwickelten sich Standards und Regeln, von der Anordnung von Bedienelementen bis hin zu einheitlicher Ikonografie. Man muss keine Programmierbefehle beherrschen und keine Bedienungsanleitung studieren, um die Devices zu bedienen.
Parallel dazu entstanden die ersten sprachgesteuerten Systeme. Sprachassistenten wie Alexa, Google Assistent, Apple Siri verbreiten sich seit ein paar Jahren explosionsartig. Die Technik ist für jeden erschwinglich oder schleicht sich über vorhandene Geräte, wie Smartphones oder Lautsprecher, in unseren Alltag ein. So haben schon die meisten von uns Erfahrungen mit Sprachfunktionen gemacht. Ob für Zugriff auf Informationen, Navigation, Bedienung von Geräten oder sogar für Einkäufe – jeder kann es ganz einfach ausprobieren. Die Vorteile von Sprachsteuerungen liegen auf der Hand: Schnelligkeit, Barrierefreiheit, Einfachheit und Bequemlichkeit.
Wie funktioniert ein Sprachassistent?
Zunächst wird vom Benutzer eine Frage sprachlich formuliert. Diese Frage kommt zum Beispiel durch ein Mikrofon im Smart Speaker an, wird durch den Voice Service erkannt, analysiert und in Text umgewandelt. Der Text wird nun an die Datenbank der Anwendung geschickt und dort wird die dazu passende Antwort ausgewählt und wieder zurück als Text an den Service geschickt. Dort wird sie in Audio umgewandelt und wiedergegeben. Zusätzlich zur sprachlichen Antwort ist auch eine Ausgabe von Audiofiles und von grafischen Inhalten, wie beispielsweise Bildern, Text oder Video möglich, sofern das Device auch über einen Bildschirm verfügt.
Wie funktioniert ein Sprachassistent?
(Bild: NEXT Munich GmbH, Alex Bosen)
UX-Konzeption von Alexa Skills & Co.
Die Aufgabe eines Voice User Interface Designers ist herauszufinden beziehungsweise vorzugeben welche Fragen gestellt werden können und zu definieren welche Antworten darauf gegeben werden sollen.
Das klingt zuerst ganz logisch und einfach, doch schon bei der Formulierung der ersten Frage wird klar, wie viele Möglichkeiten es gibt, diese Frage zu stellen und darauf zu reagieren. Anders als bei visuellen Interfaces gibt es hier keine festen Muster, keine Menüs, keine Navigationsstruktur. Jeder Benutzer ist einzigartig und agiert in einem anderen Kontext. Jeder hat eine eigene Stimme, spricht vielleicht einen Dialekt und formuliert sein Anliegen anders. Wie bringen wir also unseren Service dazu ihn nicht nur akustisch zu verstehen, sondern auf seine persönlichen Bedürfnisse einzugehen und ihn durch unsere Anwendung zu leiten?
Wie bei jeder anderen Anwendung sollten wir uns zuerst den Kontext ansehen, in dem der Benutzer unser Produkt verwenden wird. Intensives Research hilft uns dabei die Situation zu verstehen und eine passende Lösung dafür zu finden. Bei dem Design einer Smartphone App fragen wir uns beispielsweise, ob die App einhändig benutzt wird und ob deshalb die wichtigen Navigationselemente in der Nähe des Daumens positioniert werden sollten. Bei einer Sprachanwendung sollten wir uns zum Beispiel überlegen, ob bei der Verwendung Hintergrundgeräusche auftreten können oder ob der Nutzer gerade etwas anderes macht, was seine Aufmerksamkeit erfordert, wie beispielsweise Autofahren.
Sind unsere Idee und ihre Funktionen klar definiert, ist der nächste Schritt ein User Interface Diagramm zu erstellen, in dem der Dialog zwischen User und dem Sprachassistenten festgehalten wird. Die beste Herangehensweise ist es, mit dem „Happy Path“ anzufangen, also mit dem idealen Dialog, bei dem alles so verläuft, wie wir es uns vorstellen. Dadurch werden uns auch Sackgassen und Fehlerquellen bewusst. Für alle diese Fälle sollten wir uns ebenfalls Wege überlegen, den Nutzer an die Hand zu nehmen.
Hilfreiche Tools für das Prototyping sind z.B. draw.io oder Adobe XD.
Voice Design Prinzipien
Sind die Dialoge definiert, ist jetzt ein Texter an der Reihe. Die Kommunikation mit einem Sprachassistenten sollte sich so natürlich anfühlen wie die Konversation mit einem Menschen. Es sollen keine Befehle erlernt werden. Deshalb ist es nicht nur wichtig, sinnvolle Antworten wiederzugeben, sondern auch unserer Applikation eine eigene Persönlichkeit zu verleihen. Das kann durch Variationen in der Begrüßung und in den Formulierungen geschehen, aber auch durch intelligente Art mit unerwarteten Anfragen umzugehen. Der Sprachassistent sollte kooperativ sein, immer eine Hilfestellung bieten und (gerade bei riskanten Vorgängen) Bestätigung geben. Dabei ist trotzdem zu beachten, die Antworten und Rückfragen kurz und prägnant zu halten und somit die erforderliche Interaktion zu minimieren.
Um eine gute User Experience und somit Vertrauen aufzubauen ist es wichtig eine Beziehung zwischen dem Benutzer und dem Sprachassistenten zu entwickeln.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Nicht nur die Wahl einer passenden Stimme, der richtigen Sprachgeschwindigkeit und der Einsatz von Pausen und Betonung lässt unsere Anwendung natürlich und menschlich erscheinen. Eine Portion Humor sorgt für Spaß und damit ein gutes Nutzererlebnis.
Schon in der Designphase sollte so viel wie möglich getestet werden. In Rollenspielen oder mit Testingmethoden wie „Wizard of Oz“ lässt sich schnell herausfinden, ob der Flow funktioniert und an welchen Stellen noch Feintuning nötig ist, bevor es dann ans Coding und schließlich in den Store geht.
*Alexandra Bosen ist Creative Director bei der NEXT Munich GmbH.