Sprachassistenten: Mit Vollgas zurück zur Kommandozeile

»Siri, wie wird das Wetter?« … mit Computern in solchen Sätzen reden zu können – das ist ist die Zukunft. Oder doch nur das, was sich Computerpioniere vor 40 Jahren unter der Zukunft vorgestellt hatten?

Apple HomePod, ein weißer Lautsprecher.
Typisch minimalistisches Apple-Design. Dieses schicke Ding, das alles Mögliche sein könnte, ist ein Apple HomePod – ein sogenannter intelligenter Lautsprecher, der auf gesprochene Sprache reagiert. Minimalistisch sind allerdings auch die möglichen Anwendungsfälle. (Bildquelle: Rick4512)

Wer braucht noch Monitore, Tastaturen und anderen mittelalterlichen Kram? In der Zukunft sind Computer unsichtbar in die Umgebung eingebettet. Man spricht einfach ganz natürlich darauf los, der Computer hört zu und gibt eine hörbare Antwort.

So muss es sein. Immerhin wurde das in Star Trek so vorhergesagt. »Tastatur, wie rückständig!«, so kommentierte Scotty bei einem Besuch im 20. Jahrhundert den Stand der Technik, nachdem er versucht hatte, in eine Computermaus zu sprechen. Und Star Trek muss es wissen – die Macher hatten schließlich auch Smartphones vorhergesagt. Oder kommt es diesmal vielleicht doch ganz anders?

Totgesagte leben länger.

»Der CES-Blick in die Zukunft: Sprachsteuerung löst grafische Benutzeroberfläche ab«, titelte heise.de schon vor einem Jahr. Und UX Planet, eine der größten Websites zum Thema User Experience, schrieb vor wenigen Monaten »Visual Interfaces Are Dying, What Is Next?« (»Grafische Benutzeroberflächen sind am Sterben, was kommt als nächstes?«). Illustriert wird das Ganze dann mit einem hübschen Stufendiagramm, in dem Sprachsteuerung als derzeit höchste Stufe der Entwicklung dargestellt wird.

An ein ähnliches Diagramm kann ich mich auch noch aus meinem Studium erinnern. Dort begann die abgebildete Entwicklung mit Lochkarten und führte über die Kommandozeile (bekannt als »weiße Schrift auf schwarzem Untergrund«) zur grafischen Oberfläche. Die Lochkarten konnten natürlich schon aus dem Repertoire der Informatiker gestrichen werden, aber unser Professor war zuversichtlich, dass sich diese Entwicklung auch fortsetzt – dass neue Stufen hinzukommen und alte wegfallen werden.

Jetzt ist dieses ganze Diagramm aber schon von vornherein eine ziemlich willkürliche Zusammenstellung. Dann auch noch aus einem Einzelereignis Zukunftsprognosen abzuleiten, fällt dann schon in die Kategorie der Wahrsagerei. Das ist so als würde man sagen: »Das Universum besteht aus Dinosauriern, Planeten und Schoko-Muffins. Dinosaurier sind ausgestorben, Planeten sind die nächsten.«

Stufendiagramm: Lochkarten (durchgestrichen), Komandozeilen, Grafisches Interface, Holz-Pantoffeln, Sprach-Interface
Beispielhaftes Stufendiagramm für Benutzeroberflächen oder irgendein beliebiges Zeugs. Aus Jux und Tollerei könnte man hier etwa auch das Web, Mobilgeräte oder Touchscreens einordnen.

Was soll so ein Stufendiagramm denn konkret zeigen? Benutzeroberflächen? Die definieren sich in erster Linie durch Ein- und Ausgabe von Informationen. Lochkarten waren primär ein Speichermedium – über Ein- und Ausgabe sagt das erst einmal gar nichts aus. Auch Lochkarten konnten schon mit Tastaturen beschriftet werden. Da ist dann der Übergang zur Kommandozeile fließend und auch heute mit grafischer Oberfläche erfolgt ein großer Teil aller Eingaben immer noch per Tastatur. Ich könnte mir kaum vorstellen, diesen Artikel hier auf irgendeine andere Methode zu schreiben als mit haptischen Tasten – bestenfalls noch per Gedankensteuerung, aber davon sind wir noch ein paar Jahrhundertchen entfernt.

Und gerade der Austausch von Texten wirft hier schon die interessanteste Frage auf: Wenn Ein- und Ausgabe per Sprache so toll sind, warum lesen und schreiben wir dann überhaupt noch untereinander? Warum lesen und schreiben wir E-Mails, WhatsApp-Nachrichten oder Facebook-Kommentare? Aus technischer Sicht ist es längst möglich, Audio-Dateien hin- und her zu schicken. Oder man führt wie seit über 100 Jahren üblich einfach ein Telefonat.

Privatsphäre ist auch noch nicht ganz tot.

Ein Grund, warum wir nicht ständig telefonieren oder Audiodateien herumschicken, ist der, dass uns unsere Privatsphäre wichtig ist. Ja, ich weiß – das klingt auf den ersten Blick weltfremd. Da draußen laufen schließlich Leute herum, die in der vollen U-Bahn am Smartphone über ihr Liebesleben jammern. Und in jeder Online-Diskussion über Datenschutz findet sich jemand, der angeblich »nichts zu verbergen« hat.

Aber zumindest in gewissen Kontexten wollen dann doch die wenigsten an die große Glocke hängen, was sie gerade machen. »Hey Schnecke, was machst Du heute Abend?«, schreibt man seiner Freundin während einer Teambesprechung doch besser per SMS statt sie die direkt am Telefon zu fragen.

Und wenn dann nicht nur der Austausch zwischen Menschen, sondern absolut jede Ein- und Ausgabe nur noch per Sprache erfolgt, wird das umso spannender. Ich muss mir das ganz konkret am Bankomaten vorstellen: Das Gerät erzählt allen Anwesenden, wie viel Geld ich am Konto habe und ich sage öffentlich meinen geheimen PIN auf.

Du bist nicht allein.

Klar könnte man für Bankomaten eine Text-Ausnahme machen oder eine Art Telefonzelle drumherum bauen, damit niemand mithören kann. Aber das war ja nur eines von vielen Beispielen. In der Praxis wird man nur in den wenigsten Fällen allein sein und in Ruhe mit einem Computer plaudern können.

Will man in einem Großraumbüro mit Sprachein- und Ausgabe arbeiten, wenn zwanzig Kollegen um einen herum das gleiche machen? Will man in der U-Bahn einer von hundert Leuten sein, die gleichzeitig auf engstem Raum mit ihrem Smartphone quatschen? Will man in einer WG eine Sprachnachricht diktieren, während daneben jemand fernsehen möchte? Will man bei einer Feier alles übertönen müssen, nur um dem Radio sagen zu können, dass es die Musik leiser stellen soll? Allein durch solche Fragen werden die möglichen Anwendungsbereiche schon deutlich eingeschränkt.

Text ist von gestern. Reden von vorgestern.

Lesen und Schreiben gelten als das Merkmal schlechthin, das eine Hochkultur von primitiven Urvölkern unterscheidet. Trotzdem wird von allen Seiten kräftig an diesem Kulturgut gesägt. Während manche noch daran arbeiten, unser abstraktes und endlos flexibles Schriftsystem durch Emojis wieder auf das Niveau von Höhlenmalereien zurück zu entwickeln, sind die Sprachsteuerungsfetischisten schon einen Schritt weiter und wollen gleich jede Form von sichtbarer Aufzeichnung abschaffen.

Zugegeben ist das ja etwas, das man durchaus einmal andenken darf. Der größte Vorteil durch die Erfindung der Schrift war schließlich, dass man Informationen erstmals dauerhaft festhalten konnte. Das kann man heute auch mit Audio-Daten. Wer weiß – vielleicht hätten die alten Ägypter auf die Entwicklung der Hieroglyphen verzichtet, hätten sie davor schon die Schallplatte und das Grammophon erfunden. Aber hätten sie ohne Schrift überhaupt das technische Verständnis entwickelt, das dafür notwendig ist?

Unser Sehsinn hat im Vergleich zum Gehör den Vorteil, dass er wesentlich größere Datenmengen verarbeiten kann. Wenn man diesen Artikel hier vor sich hat, erkennt man auf einen Blick die Gesamtlänge, Überschriften, Absätze und Hervorhebungen. Man kann Uninteressantes sofort überspringen oder Interessantes beliebig langsam lesen. Man kann einen Text noch einmal lesen, indem man einfach mit den Augen ein Stück zurück springt. Diese Effizienz kann man mit Sprachausgabe niemals erreichen.

Schrift ist auch wesentlich exakter als gesprochene Sprache. Vieles, das sich ähnlich anhört, schreibt sich vollkommen unterschiedlich. Telefonnummern können mündlich nur mühsam weitergegeben werden, weil etwa »zweihundertvierzehn« als »214, »200 14« oder »200 4 10« verstanden werden kann. Zahlen und Formeln, auf denen unsere gesamte Technik beruht, sind davon abhängig, dass jedes Komma sitzt. Ohne Schrift wären wir heute nicht da, wo wir sind. Und in der Zukunft wären wir ohne Schrift wohl nicht da, wo wir sein könnten.

r = sqrt( ( (a+d)/2 + h - d/4 ) )^2 + ( (a+d)/2 - d/4 )^2 )
Für Dinge wie die Wettervorhersage und Klopf-Klopf-Witze ist mündliche Kommunikation ja ausreichend, aber bei Formeln – hier ein Beispiel aus meiner Diplomarbeit – ist man dann doch ganz froh, wenn man das Zeug schriftlich vor sich hat. Ohne Formeln gäbe es keine Technik und auch keine Sprachassistenten.

Siri, du bist nicht natürlich.

Dass Sprachassistenten besonders genau sind oder einen schnellen Überblick geben können, behauptet für gewöhnlich auch niemand. Was dagegen immer wieder betont wird, ist die angebliche Natürlichkeit der Kommunikation. In dieser Sache ist man sich offensichtlich doch wieder bewusst, dass man einen Kommunikationskanal aus jener Zeit nutzt, als Mensch und Affe sich noch nicht weit von ihren gemeinsamen Vorfahren entfernt hatten.

Aber wie natürlich ist die Kommunikation wirklich? Wenn sich jemand mitten in den Raum stellt und dann laut und deutlich fragt »Michael, wie wird das Wetter heute?«, wäre ich wahrscheinlich etwas irritiert. »Michael, brauche ich heute einen Regenschirm?« ist schon eine Spur besser, aber immer noch seltsam direkt. Das ist vielleicht auch eine kulturelle Frage, aber solange Sprachassistenten wie Siri dann nicht mit »Bin i da Quaksi oda wos?« (»Bin ich der Wetterfrosch oder was?«) antworten, fühlt sich das für mich nicht wirklich natürlich an.

Natürlich wäre für mich folgendes Gespräch:
Ich gehe zum Fenster und schaue hinaus.
Siri: »'s schaust'n?« (»Was schaust Du denn?«)
Ich: »Ob's regn't.« (»Ob es regnet.«)
Siri: »Und?«
Ich: »Glaub' net.« (»Ich glaube nicht.«)
Siri: »Soll's a net. Erst morg'n wieda.« (»Soll es auch nicht. Erst morgen wieder.«)

Sprachassistent = Kommandozeile

Dass eine wirklich natürliche Konversation noch nicht funktioniert, ist aus technischer Sicht verständlich. So ein Sprachassistent ist kein künstlicher Mensch, sondern hat wie jedes andere System beschränkte Ressourcen. Damit er mich versteht, müssen die Möglichkeiten beschränkt sein. In der Regel gibt es also ein Set von Kommandos, die gut erkannt werden und sinnvolle Ergebnisse liefern.

Das ist im Prinzip nichts Anderes als eine der ältesten Eingabeformen am Computer: Die Kommandozeile. Man tippt einen Befehl ein, drückt auf Enter und der Computer macht irgendetwas. Jetzt nennt man eben den Computer beim Namen, sagt danach seinen Befehl auf und er macht irgendetwas.

Screenshot von DOSBox nach dem Start.
DOSBox, ein Emulator des Betriebssystems DOS, ist ein typisches Beispiel für Kommandozeilen. Ob man in so einem Fenster eingibt, was man haben will, oder es einem Sprachassistenten sagt, ist eigentlich kein großer Unterschied. Gesprochene Sprache muss vom System auch erst in Text umgewandelt werden. Man umgeht lediglich das Tippen.

Gegenüber einer grafischen Oberfläche ist das kein Fortschritt, sondern ein Rückschritt. Das größte Problem der Kommandozeilen war immer, dass man die Befehle auswendig kennen muss, während man sie in grafischen Oberflächen auf Schaltflächen oder aus Menüs auswählen kann. Genauso läuft das mit Sprachassistenten. Dein Assistent beherrscht wahrscheinlich Dinge, von denen Du nie erfährst, solange Du nicht aus Langeweile Internetseiten durchstöberst. Und vielleicht ist sogar etwas Nützliches dabei.

Ein Verwandter von mir wollte sich vor Jahren einmal ein Navigationssystem in sein Auto einbauen lassen. Er hat sich damit letztendlich zum Gespött gemacht, denn die Werkstatt teilte ihm mit, dass er bereits eines hat. Das Ding war so schön unauffällig integriert und auf Sprachsteuerung optimiert, dass es nicht mehr wahrnehmbar war. In so einer Form sind die besten Funktionen nutzlos.

Eine klassische Kommandozeile hat zumindest den Vorteil, dass man als Profi mit diversen kryptischen Kürzeln und Parametern komplexe Aufgaben viel effizienter lösen kann als jemand, der nur Elemente in grafischen Oberflächen anklickt. Dieser Vorteil geht bei Sprachassistenten verloren. Im Prinzip sind Sprachassistenten also die dümmere Variante einer Kommandozeile. Und die soll ja angeblich vor dem Aussterben stehen.

Beschränkte Assistenten

Trotz aller Kritik haben Sprachassistenten sicher ihren Platz in der Welt. Aber dieser Platz beschränkt sich auf sehr spezielle Anwendungsfelder. Beim Autofahren oder in der Küche ist es sicher hilfreich, Geräte nur durch Sprache zu bedienen, damit man die Hände für andere Dinge frei hat. Den Arbeitsplatz im Büro wird die Technik aber eher nicht erobern.

Es ist nicht nur nervig, wenn man in Anwesenheit Anderer alles kommuniziert, was man gerade macht. Es ist oft auch vollkommen ineffizient. Wenn ich mir erst per Sprachbefehl eine Liste vorlesen lassen muss, um dann erneut per Sprachbefehl einen Eintrag auszuwählen, lacht mich derjenige zurecht aus, der die gleiche Aufgabe mit zwei Klicks in einem grafischen Interface gelöst hat.

Wahrscheinlich gehen die hohen Erwartungen an Sprachausgabe vor allem von jenen Leuten aus, die beruflich primär Quatschköpfe sind: Manager, deren Tagesablauf aus Vorträgen, Meetings und jeder Menge heißer Luft besteht. Aber das kann auch nicht jeder. Den ganzen Tag den Mund offen zu haben, muss auch erst einmal trainiert werden. Als ich maulfauler Kerl vor Jahren die Windows-Sprachsteuerung ausprobierte, war ich nach zwei Stunden Übung vier Tage lang heiser.

Wie so oft besteht aber durchaus Hoffnung, dass der Hype sich allmählich in Realismus auflöst. Manche – oder zumindest ein – Hersteller »smarter Lautsprecher« erkennen langsam, dass Audio allein nicht die beste Idee ist und bauen mittlerweile Geräte mit Bildschirm.

Amazon Echo Show.
Für die einen ist es ein smarter Lautsprecher mit Bildschirm, für die anderen das wahrscheinlich unhandlichste Smartphone der Welt: Amazon Echo Show. (Bildquelle: Daylen)

Letztendlich war auch Scotty aus Star Trek bloß jemand, der sich einen dummen Witz nicht verkneifen konnte. Die Kommandobrücke der USS Enterprise ist nämlich trotz Sprachassistenten nicht nur zum Bersten voll mit Monitoren, sondern auch mit haptischen Tasten.

Kommentare

Neuen Kommentar schreiben

Bisherige Kommentare

  • Tony T

    Schöner Artikel! Ich bin ein ebenso großer Fortschrittsfeind wie du (Hab noch immer kein Smartphone), und deine Artikel helfen mir, die richtigen Worte für meine Skepsis zu finden. Besten Dank!

    • Michael Treml (Seitenbetreiber)

      Antwort an Tony T:

      Als Fortschrittsfeind würde ich mich eigentlich nicht bezeichnen, eher als Technik-Kritiker. Mein Motto lautet: Nicht alles, was neu ist, ist auch ein Fortschritt.

      Mein 14 Jahre altes Handy habe ich kürzlich doch endlich in Pension schicken müssen. Das neue ist zwar gewissermaßen smart, aber auch nicht brandaktuell: Ein gebrauchtes Blackberry. Mir ging's dabei gar nicht um smarte Apps, sondern um die haptische QUERTZ-Tastatur. SMS mit dem Ziffernblock zu schreiben, hat mich in den letzten Jahren doch zunehmend Nerven gekostet.