Sprachassistenten

Das Wesen des Digitalen Sprachassistenten

| Autor / Redakteur: Robert C. Mendez * / Annika Lutz

Digitale Sprachassistenten durchdringen mittlerweile unseren Alltag – nun wird es Zeit, sie zu verstehen und zu nutzen.
Digitale Sprachassistenten durchdringen mittlerweile unseren Alltag – nun wird es Zeit, sie zu verstehen und zu nutzen. (Bild: gemeinfrei / CC0)

Digitale Sprachassistenten wie Amazon‘s Alexa oder Google‘s Assistant sind gekommen um zu bleiben. Nicht nur weil die größten der Großen Digitalkonzerne titanische Mengen an Ressourcen in die Entwicklung der Systeme stecken, sondern auch weil die Menschen es wollen. Wer hat sich noch nicht seinen eigenen „persönlichen Assistenten“ gewünscht?

Nun, er ist da! Auch wenn er noch viel lernen muss. Damit ist auch die Notwendigkeit an die Entwickler, Marken und Unternehmen geboren diese Technik und diesen Kanal zu verstehen und zu nutzen um auch in Zukunft den Nutzer und Kunden effizient zu erreichen.

„Ok Google, jetzt erzähl mal wer und was du bist!“

Wäre wirklich toll, wenn der Sprachassistent auf diese Anfrage auch eine Antwort hätte. In der Tat kann er aber aktuell nicht wirklich erklären, was er ist und was er bewirkt. Dies liegt zum einen in der Tatsache, dass die Systeme noch an Tag Eins ihrer Entwicklung sind, zum anderen auch daran, dass man eben die Antworten aber auch noch gar nicht wirklich kennt. Genau hier liegen Risiko und Chance für Unternehmen nah beieinander. Sollte ein Sprachassistent jemals sich selbst bewusst werden, dürfte die Antwort auf die Frage „Was bist du?“ vermutlich sehr interessant ausfallen.

Aktuell nehmen die Menschen den digitalen Sprachassistenten als „Sprachsteuerung“ oder als Werkzeug zur „Wissenssuche per Sprache“ wahr, ebenso wie als Unterhaltungsmaschine. In der Tat sind das auch aktuell die Eigenschaften der Systeme, die am besten funktionieren, aber eben auch nur ein kleiner Teil des Wesens mit dem der Sprachassistent angetreten ist – nämlich für jeden Menschen ein „persönlicher Assistent“ zu sein. Wer will das nicht?

Um ein persönlicher Assistent zu werden, braucht es eine barrierefreie Kommunikationsschnittstelle: die Sprache. Diese muss „natürlich“ sein, denn sonst haben wir die gleichen Nutzungsbarrieren wie bei Bildschirmmedien. Zugegeben, aktuell sind die Systeme noch nicht intelligent genug, um wirklich natürlich und frei Schnauze mit ihnen sprechen zu können. So bestehen die gut funktionierenden Anwendungsfälle für digitale Sprachassistenten momentan noch sehr häufig aus formalen, einfachen Sätzen im Kasernenhofton. Doch die Entwicklung ist rasant. Noch nie in der Menschheitsgeschichte hat eine Technologie eine so schnelle und große Akzeptanz erfahren wie digitale Sprachassistenten. Die Barrierefreiheit ist der wesentliche Grund dafür. Dies in Kombination mit der Gadget-Verrücktheit der Menschen und zahlreichen Schnittstellen zu allen möglichen Funktionen und Inhalten, garantiert den entwickelnden Unternehmen rosige Aussichten und einen Spielplatz für aufregende Entwicklungen.

„Alexa, was fang ich mit dir an?“

Eine Frage die ein jeder Nutzer für sich ohne Probleme beantworten könnte. Die Wunschliste der Dinge,die der persönliche Assistent seinem Nutzer abnehmen könnte, ist laaaaang. Selbst wenn es aktuell nur einfache Dinge sind, wie beispielsweise das Setzen einer Erinnerung oder dem Steuern der Heizung.

Stellt diese Frage jedoch eine Marke oder ein Unternehmen, so besteht die Antwortliste aktuell wohl eher noch aus Fragezeichen. Dabei ist es doch eigentlich offensichtlich, dass der Sprachassistent ein neuer und weiterer Kanal zum Bedarf der Kunden von Unternehmen ist. Dieser kann aber eben nicht einfach mal ebenso mit vorhandenen Mitteln bespielt werden, denn der digitale Sprachassistent bringt Eigenschaften mit, die erst verstanden werden wollen. Dies umfasst in erster Linie:

  • den „Voice First“ Gestaltungsansatz
  • den digitalen Sprachassistenten als persönlicher Assistent seines Nutzers
  • den digitalen Sprachassistenten als Gatekeeper des Nutzers
  • den Grad der Nutzbarkeit des digitalen Sprachassistenten
  • die Eigenschaften natürlich gesprochener Sprache

Erst wenn diese Hürden genommen sind, macht die Entwicklung eines „Smart Voice“-Projektes Sinn und wird dann auch schnell effizient.

Für den Entwickler beziehungsweise die Agentur, die ihren Unternehmenskunden Entwicklungen für Sprachassistenten anbietet, bedeutet es im ersten Schritt, dem Kunden den Sprachassistenten in seinem Wesen klarzustellen und die Anwendungsfälle zu analysieren, die das Unternehmen sich wünscht.

Diese Anwendungsfälle sind stets fundamentaler Bestandteil der Maßnahmen, die ein Unternehmen vornimmt, um seine Ziele zu erreichen. Dies setzt also voraus, dass ein Auftrag gebendes Unternehmen sich selbst gut genug kennt, um seine Ziele und die nötigen Maßnahmen zur Zielerreichung zu kennen.

Erst wenn dies der Fall ist, kann der Skill-(Alexa) / Action-(Google Assistant)-Programmierer oder die Spezialagentur den weiteren Weg mit dem Unternehmen gehen, die Anwendungsfälle ausarbeiten und dessen Inhalte gestalten.

Das Internet der Stimme

Internet of Voice

Das Internet der Stimme

17.10.18 - Schreiben ist Silber, Reden ist Gold. Der Trend zum Internet der Stimme krempelt aktuell so einiges um. Zum Beispiel die Suche im Internet oder die Bedeutung von Audio in der digitalen Welt. Denn die Stimme ist die neue Schnittstelle zwischen Mensch und Internet. Wie wirkt sich das auf Marketing, SEO, Content & Co. aus? Und: Wie spricht man im neuen Audio-Universum? lesen

„Voice First“ heißt nicht „Voice Only“

Nur zu schnell kommt man im Rahmen der Entwicklung von Sprachassistenten gerne auf den übereifernden Gedanken, dass nun die ganze Welt von Sprachassistenten überrollt wird und es nirgends wo mehr Bildschirme gibt. Das ist natürlich totaler Unsinn! Der Mensch hat Augen und die braucht er auch, weil es nun mal Informationen gibt, die sich per Stimme nicht effizient übertragen lassen. Schon einmal versucht, jemanden ein Bild oder ein Lied nur in Worten zu beschreiben? Oder im Club bei 100 Dezibel Technobass ein Getränk zu bestellen? Aha!

Eigentlich ist mit „Voice First“ eine Geräteklasse gemeint, welche außer der Bedienbarkeit per Stimme keine weiteren Nutzerschnittstellen hat. „Voice First“ als Gestaltungsrichtlinie bedeutet, dass eine Nutzerschnittstelle zu 100 Prozent per Stimme nutzbar sein muss. Es bedeutet aber auch, dass wenn eine Information zu komplex für eine Ausgabe per Stimme ist, diese Information dann auf einem anderen Medium, wie einen Bildschirm ausgegeben werden muss. Der Medienbruch ist dann ein „Muss“ und kein Fehler. Genau diesen Sattelpunkt zwischen „nur Stimme“ und mehr, gilt es in den jeweiligen Anwendungsfällen zu finden und zu gestalten. Wird dies nicht gemacht, so ist das Gerät oder die Funktion „kaputt“ und damit nicht für den Menschen nutzbar. Spätestens unsere Kinder werden nicht mehr verstehen, warum sich etwas nicht per Stimme steuern lässt.

Gesprochene Sprache ist sensibel und verzeiht nichts. Entsprechend braucht es eine feinfühlige Gestaltung der Sprache und des Sattelpunktes, an dem ein ergänzendes Medium und damit ein Medienbruch in die Nutzerführung (UX) gestaltet werden muss. Grundsätzlich gilt: Je komplexer die zu transportierende Information, umso wahrscheinlicher das ist es, dass „nur Stimme“ nicht ausreicht um sie an den Menschen zu kommunizieren. Das prinzipiell aller-aller-aller erste Gestaltungs- beziehungsweise Entscheidungskriterium ist dabei schlichtweg die Frage nach der Kommunikationsfähigkeit des Menschen selbst oder auch die Frage „Kann der Mensch im zu gestaltenden Anwendungsfall überhaupt sprechen?“. Klingt banal – ist es auch! Selbst wenn ein Mensch aus physischen Gründen keine Einschränkung in seiner Fähigkeit zu sprechen hat, so könnte diese Fähigkeit zu Sprechen trotzdem durch eine laut röhrende Maschine oder laute Musik schon bis auf Null eingeschränkt sein. Womit Voice First dann Voice Last wäre.

Ist Sprache im angedachten Anwendungsfall also überhaupt nutzbar? Wenn ja, dann ist die Komplexität der Informationen das nächste Kriterium, welches über den Grad der Nutzbarkeit der Stimme für die Kommunikation mit Maschinen entscheidet. Oder andersherum, was darüber entscheidet an welchen Stellen ein weiteres Medium wie der Bildschirm eingesetzt werden muss. Diese Entscheidung wird im Groben von folgenden Punkten beeinflusst:

  • 1. Die Kommunikationsfähigkeit ist wie bereits beschrieben, entscheidend über den Grad der Nutzbarkeit von „Voice First“. Doch selbst wenn eine hohe Kommunikationsfähigkeit per Sprache im Grunde möglich wäre. Dürfen/Sollten die entsprechenden Informationen wirklich „gesprochen“ werden? Es gibt nicht umsonst die Weisheit, dass manche Dinge vielleicht lieber unausgesprochen bleiben sollten.
  • 2. Die Form der Information ist zum Beispiel ein Ton, eine Farbe, Helligkeit, Muster aber auch beispielsweise ein Format. Wer einmal versucht hat, jemanden ein Bild oder Lied nur mit Worten zu beschreiben, dürfte grandios gescheitert sein. Ist eine Information nicht verbal darstellbar, braucht es weiteres Medium.
  • 3. Die Komplexität der Information. Jeder kennt die Situation im Restaurant, in der der Kellner die zehn angebotenen Desserts aufzählt und man bereits nach dem vierten nicht mehr weiß, was das Erste war. Ist eine Information zu komplex oder die Masse zu groß für die Stimme, so braucht es einen Medienbruch oder zumindest ein Dialogmodell, welches die Masse der Informationen in Häppchen serviert.

„James! Kaffee bitte!“

Wer wollte das nicht schon immer einmal zu seinem eigenen Assistenten sagen? Auch wenn das beim ersten Aussprechen seltsam klingt, so sind wir diesem Szenario doch näher als gedacht. Schon heute gibt es leistungsfähige Roboter, die in ihrer Umgebung gut zurechtkommen. Beeindruckende Entwicklungen dazu liefert zum Beispiel Boston Dynamics. Warum sollte man also einen digitalen Sprachassistenten nicht in so einen Roboter einbauen können?

Aktuell finden Alexa und Co. ihren Weg zum Menschen noch in Smartphones oder smarten Lautsprechern wie dem Google Home. Doch immer mehr Hersteller bauen die Systeme in ihre Geräte ein, sodass bald auch Kühlschränke, Autos, Drucker, Kaffeemaschinen und viele mehr mit einem digitalen Sprachassistenten unter der Haube mit dem Menschen sprechen können. Smarte Lautsprecher könnten dann eines Tages nur noch eine Randerscheinung sein.

Momentan werden alle erdenklichen Schnittstellen an die Sprachassistenten angedockt. Schon heute lassen sich viele Geräte und Dienste per Sprachassistent bedienen. Von der Steckdose, über den Kalender, bis hin zur Telefonie. Wir haben also schon heute einen persönlichen Assistenten, der mit uns sprechen kann. Bisher haben wir uns an diese Tatsache jedoch noch nicht gewöhnt. Dabei sind viele Anwendungsfälle im täglichen Leben und Arbeiten schon heute mit Sprachassistenten gut optimierbar, selbst wenn es nur das Setzen eines Timers per Stimme ist, wenn man in der Küche klebrige Finger vom Teig hat.

Die dabei interessanteste Funktion dabei ist definitiv die Gestaltung eigener Routinen /Abläufe, um die Funktionen des Sprachassistenten auf seine persönlichen Ansprüche zu optimieren. Die Funktionen, die in diese Abläufe eingebettet werden können, werden fast täglich leistungsfähiger und damit für den Menschen immer nützlicher. So sind schon heute digitale Sprachassistenten für viele stärker eingeschränkte Menschen (wie beispielsewise Behinderte) oft ein wahrer Segen.

Nimmt man die Tatsache hinzu, dass durch die persönliche Gestaltung der Funktionen der Sprachassistenten auch noch ein hoher Grad an Personalisierung entsteht, dürfte der digitale Sprachassistent definitiv das Medium sein, welches seinen Nutzer am besten kennt. Ein Alptraum für Datenschützer und ein feuchter Traum für das Marketing.

Inhalt des Artikels:

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45784630 / New Work)