Sprachassistenten

Das Wesen des Digitalen Sprachassistenten

| Autor / Redakteur: Robert C. Mendez * / Annika Lutz

„Du kummst hier net rein!“

Der digitale Sprachassistent als persönlicher Assistent ist umso nützlicher, umso personalisierter er ist und umso besser er seinen Nutzer kennt. Dies geht sogar so weit, dass der Sprachassistent, einmal konfiguriert, dem Nutzer auch Entscheidungen abnimmt. Schon heute passiert dies häufig, zum Beispiel immer dann, wenn die Heizungsanlage sich selbst regelt oder wegen Dunkelheit von selbst das Licht einschaltet. Der digitale Sprachassistent hält sich natürlich an die „sichtbaren“ Grenzen, die sein Hersteller und sein Nutzer ihm mitgeben. Aber was ist mit den nicht sichtbaren? Wurde beispielsweise Alexa so konfiguriert, dass immer nur ein bestimmter Musikdienst und bestimmte Musik abgespielt wird, dann hat ein anderer Musikdienst keine Chance mehr, zum Nutzer durchzudringen. Einen Schritt weitergedacht, könnten Systembetreiber oder böse Buben genau diesen Umstand ausnutzen, um nur ihre Inhalte an den Nutzer auszuspielen. Schon heute serviert Amazons Alexa beim Einkauf per Alexa dem Nutzer primär „Amazons Choice“ als angebotenes Produkt.

Der Sprachassistent wird somit zum Gatekeeper und die Unternehmen und Inhalte-Anbieter haben das Problem, an diesem Türsteher vorbeikommen zu müssen, um ihre Information an den Nutzer ausliefern zu können. Die Faktoren,die beeinflussen, welche Information an den Nutzer fließen und welche nicht, sind bis heute entweder noch gar nicht existent oder nicht bekannt. Daher existiert so etwas wie eine Suchmaschinenoptimierung für „Smart Voice“ auch noch nicht – so sehr sich das manchen Agenturen auch herbeireden. Die aktuelle Gestaltungsrichtlinie von Google zum Klassifizieren von sprechbaren Inhalten oder auch das auf schema.org vorhandene Markup zum Markieren von sprechbaren Inhalten, sind nicht nur viel zu kurz gefasst, sondern fließen bisher auch nirgendwo als Rankingfaktor für die Ergebnisausgabe ein. Aktuell fährt Google lediglich einen Modellversuch in Teilen der USA.

Ob durch das System selbst oder durch den Nutzer konfiguriert, der digitale Sprachassistent ist für Unternehmen, die diesen qualitativ hochwertigen Kanal zum Nutzer nutzen wollen, Freund und Feind zugleich. Er ist Beschützer, Türsteher, Berater, Assistent und sogar Chef– und der Nutzer selbst nimmt dies bisher dankend an. Die rigide Vorfilterung von Inhalten ist nötig, um per Sprache ein Dialogmodell führen zu können, welches den Nutzer nicht überfordert. Dies ist vom Nutzer aber auch gewünscht, da die Masse der Informationen den Nutzer heute bereits massiv überfordert. Niemand braucht hundert Marmeladensorten oder hunderte Trump-Fake-News.

Jede Marke, jedes Unternehmen, jedes Produkt und auch jeder Inhalt, der sich qualitativ hochwertig an den echten Bedarf des Nutzers und den Filtern des Sprachassistenten in Form von natürlicher gesprochener Sprache orientiert, wird auch in einer Zukunft mit Smart Voice eine reelle Chance haben, als primäre Information beim Nutzer zu landen.

„Siri, mach dich mal nützlich!“

Die Grundfrage der Nutzbarkeit steht immer als erste Frage im Raum, sobald eine Neuigkeit das Licht der Welt erblickt. Die Nutzung von Sprache in Kombination mit Technik ist dabei eigentlich nichts Neues. Das Neue daran ist die Masse an Funktionen, die nun möglich und für jeden erschwinglich sind. In Kombination mit einer immer größer werdenden Intelligenz der Systeme, ergeben sich Nutzungsszenarien, an die vor wenigen Jahren noch niemand gedacht hat und maximal Teil eines Films waren. Entsprechend steht die Frage nach den Möglichkeiten, die die Sprachassistenten uns bieten, im Raum. Diese Möglichkeiten sind in erster Linie an die Spracherkennung gebunden, denn ohne eine hochgradig gut funktionierende Spracherkennung, sind alle weiteren Funktionen sinnlos.

In der Tat hat die Spracherkennung in den letzten Jahren einen großen Schritt getan. Besonders Google Assistant zeigt anderen Systemen hier die lange Nase. Gleiches gilt bei der Kontexterkennung. Denn für die Maschine ist ein aus Sprache generierter Text erst einmal nur ein Text. Sie weiß nicht, was dieser Text überhaupt meint beziehungsweise welchen Kontext er überhaupt hat. Und genau hier entscheidet sich die Nutzbarkeit der Sprachassistenten für den Menschen. Die nötige Intelligenz zur Kontexterkennung ist das A und O und bestimmt darüber, ob der Mensch mit der Maschine gut klarkommt oder nicht. Dieser Prozess wird „Natural Language Understanding“ genannt und ist für den Menschen die eigentliche Intelligenz hinter den Systemen.

Aktuell lässt sich diese Intelligenz in folgende Nutzungsstufen aufteilen:

  • 1. Frage / Antwort
  • 2. Steuerung
  • 3. Anleitung
  • 4. Dialog

Punkt 1. und 2. Können die Systeme bereits ganz gut. Klar, das Beantworten von Fragen ist ja quasi das Brot- und Buttergeschäft von Suchmaschinen jeglicher Färbung. Hierfür werden keine großen Dialogmodelle benötigt, da eine Unterhaltung mit der Technik ja nur kurz und einfach stattfindet. Gleiches gilt für Punkt 2. Hier kommen zwar sprachliche Rückfragen und Bestätigungen hinzu, aber auch diese sind in kurzen und wenig komplexen Dialogen gut zu überblicken.

Punkt 3, die Anleitung ist die Entwicklung die aktuell ihren Weg zum Nutzer nimmt. So hat zum Beispiel YouTube bereits angekündigt, eine große Masse an How-To-Anleitungsvideos herstellen zu wollen, die in Kombination mit dem Sprachassistenten dem Nutzer eine wertvolle Hilfe für die entsprechenden Anwendungsfälle liefern sollen. Vom leckeren Kochrezept bis hin zur Wartung einer Flugzeugturbine dürften derartige interaktive Anleitungen eine große dankbare Abnehmerschaft finden. Schon heute gibt es Skills/Actions die eine solches „Begleiten durch einen Prozess“ unterstützen. Die Intelligenz der Systeme muss dabei nicht nur Rückfragen und Bestätigungen unterstützen, sondern beispielsweise auch die Speicherung von Fortschritten oder die Handhabung von möglichen Problemen (beispielsweise beim Kochen: „Was mach ich wenn das Schnitzler angebrannt ist?").

Die Königsklasse ist dann Punkt 4, der Dialog. Hier wird der Sprachassistent zu einem virtuellen Lebewesen, welches sich mit seinem Nutzer über alles unterhalten kann. Sowohl die Spracherkennung als auch die Kontexterkennung und Intelligenz müssen technisch im höchst möglichen Grad entwickelt sein. Sogar über Empathie sollte die Maschine hier verfügen, um den Kontext des Dialogs zu treffen. Sonst könnte es den Nutzer verwirren, beispielsweise wenn dieser gerade gestresst ist und sein Sprachassistent ihn dann im fordernden Tonfall auch noch zur Erledigung der nächste Aufgaben auffordert. So hat Amazon in den USA Alexa die Möglichkeit beschert, zu erkennen, ob der Nutzer vielleicht krank ist. Auch Lügendetektoren nutzen den Stress in der Stimme als Basis ihrer Analysen. Wenn der Sprachassistent dann auch noch Augen bekommt, wie zum Beispiel im Ansatz für Google Assistant mit Google Lens schon möglich, dann wird der Nutzer komplett gläsern und kann je nach Erkennung auch empathisch reagieren.

Das Potenzial von Sprachassistenten im B2B

Voice Assistants

Das Potenzial von Sprachassistenten im B2B

30.08.18 - Wie Google Assistant, Alexa und Co. in den eigenen vier Wänden eingesetzt werden, ist längst bekannt. Ihr Nutzen im B2B undenkbar? Falsch! Conversational Interfaces und Künstliche Intelligenz können die Arbeit in Unternehmen erleichtern, kostbare Zeit einsparen und die Leadgenerierung revolutionieren. lesen

„Tut mir leid, das habe ich leider nicht verstanden!“

Dies ist aktuell wohl die von Sprachassistenten am häufigsten ausgelieferte Information an den Nutzer. Entsprechend dürften in den Spracheingabeprotokollen der Nutzer derzeit noch viele Schimpfworte eine recht hohe Dichte haben. Für die Entwickler von Sprachassistenten heißt dies im Umkehrschluss: je weniger Schimpfworte beim Nutzer fallen, desto hochwertiger ist das VUI (Voice User Interface), also die verbale Schnittstelle zum Nutzer umgesetzt worden.

In den letzten Dekaden haben wir gelernt, mit Maus, Tastatur und Bildschirm umzugehen und diese effizient zu gestalten. Dies ändert jedoch nichts an der Tatsache, dass diese Form der Kommunikation mit Maschinen sehr formal ist, gelernt sein will, eine hohe Zugangsbarriere hat und oft auch nicht sehr effizient ist. Nun folgt ein Fortschritt durch einen Rückschritt, nämlich der Fortschritt in der Kommunikation durch Technik und die gleichzeitige Verwendung einer uralten Kommunikationsform: der Sprache.

Alleine bei der Eingabe ist die Stimme drei bis fünfmal schneller als jedes andere Medium. Ein Vorteil, den sich zum Beispiel Diktiersysteme schon lange zu eigen machen. Wer als erfahrener Gestalter von Nutzerschnittstellen nun also meint, auch „Smart Voice“ gestalten zu können, der irrt jedoch. Denn die gesprochene Sprache und die damit verbunden Sinnesorgane funktionieren gegensätzlich und die bisher gelernten Regeln für die Nutzerkommunikation per Bildschirm verlieren damit ihre Verwendbarkeit. Die Gestaltung eines VUI ist eine gänzlich andere Sache und hat auch mit Chatbots nur bedingt Überschneidungen.

Stellen wir die Eigenschaften von Auge und Ohr ein wenig gegenüber. Dies gilt natürlich nur wenn die primäre Schaltzentrale (Gehirn) entsprechend normal arbeitet:

Auge:

  • Schnelle, fast parallele Informationsaufnahme
  • Erkennt Farben, Formen, Muster, Aufteilungen, Geschwindigkeit
  • Mag Wiederholungen, Harmonie
  • Visuelle Emotionen
  • Eher unbewusste Wahrnehmung
  • 217 Grad Wahrnehmung im Raum horizontal maximal
  • Hat Ausdauer

Ohr:

  • Langsame, serielle Informationsaufnahme
  • Erkennt Lautstärke, Betonungen, Pausen, Geschwindigkeit
  • Mag Variation,
  • Akustische Emotionen
  • Eher bewusste Wahrnehmung
  • 360 Grad Wahrnehmung im Raum in alle Richtungen
  • Langweilt sich schnell

Betrachtet man nur diese wenigen Unterscheidungsmerkmale, wird schnell klar, dass die Gestaltung eines Bildschirminhaltes mit der Gestaltung für das Ohr nur wenig bis Garnichts miteinander zu tun haben. Dieser Umstand ist dann auch die goldene Stunde für Geschichtenerzähler, Sprecher und Linguisten. Noch gibt es den VUI-Designer nicht, doch so wie der GUI-Designer (Graphical User Interface) für den Bildschirm zu einem Beruf wurde, so werden auch die digitalen Sprachassistenten neue Berufsbilder hervorbringen.

Das wohl typischste Problem bei der Gestaltung hin zur Stimme, ist wohl die Tatsache, dass es so etwas wie eine Hierarchie, wie zum Beispiel bei einem typischen Auswahlmenü, in der gesprochenen Sprache nicht gibt. In der gesprochenen Sprache befinden sich alle Navigationselemente auf der obersten und einzigen Ebene. Und alles was an Navigationssprüngen passieren kann, wird auch passieren. Für den Nutzer ist es dabei schwierig, den Kontext nicht zu verlieren.

Auch wenn die Spracherkennung schon recht gut funktioniert und teilweise schon in Echtzeit zwischen verschiedenen Sprachen erkennen und sogar übersetzen kann, so steht den Systemen der Sprachassistenten noch eine große Anzahl an Sprachen (ca. 6500) und dessen Dialekten gegenüber. Sie alle wollen gelernt werden, um auch alle Menschen so persönlich wie nur möglich zu erreichen.

Die Entwicklungen der nächsten Jahre in diesem Segment sind deshalb mehr als spannend. Vor allem die der Intelligenz und Kontexterkennung der Systeme ist dabei die größte Herausforderung. Eine Aufgabe, für deren Entwicklung auch nur die größten Konzerne überhaupt Ressourcen haben. Bleiben wir also auch weiterhin am Ohr der Zeit und freuen uns über Neues rund um die quatschenden virtuellen Geister in unseren Geräten.

Warum ist Voice das nächste große Interface?

Voice-Technologie

Warum ist Voice das nächste große Interface?

06.03.19 - 2018 – ein Jahr, in dem die Begriffe „Alexa“, „Hey Google“ und „Siri“ einen exklusiven Bekanntheitsgrad bekommen konnten. Das Thema ist längst in jeder Geschäftsführung angekommen und auf so gut wie jeder Digitalisierungsagenda zu finden gewesen. Doch ist es wirklich die nächste große Revolution in Zeiten des Internets? Oder doch nur ein kurzer Hype? lesen

* Robert C. Mendez ist Experte für digitale Sprachassistenten bei Internet of Voice in Köln.

Inhalt des Artikels:

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45784630 / New Work)