GUI, CUI und VUI
Die Abkürzungen GUI, CUI und VUI stehen für drei unterschiedliche User-Interface-Konzepte, mit denen jeder bereits einmal zu tun hatte:
- GUI ist die Abkürzung für Graphical User Interface und steht für die klassische Art, Programme mit Maus oder per Touch-Eingaben zu steuern. Menüs, Schaltflächen und grafische Steuerelemente wie Slider sind typisch für dieses Bedienkonzept.
- CUI steht für Conversational User Interface und bezeichnet die Steuerung von Systemen per Texteingabe (in der Regel über eine Tastatur) in natürlicher Sprache. Das bedeutet, dass das System die Texteingabe interpretiert und der Nutzer bzw. die Nutzerin keine spezielle Befehlssyntax erlernen muss. ChatBots sind ein Beispiel für CUI-Anwendungen.
- VUI ist die Abkürzung für Voice User Interface. Hier erfolgt die Nutzerinteraktion und Steuerung des Systems per gesprochener Sprache. Auf diesem Konzept beruhen die virtuellen Assistenten von Amazon (Alexa), Apple (Siri), Google (Hello) und Microsoft (Cortana).
Dabei hat jedes UI-Konzept seine Vor- und Nachteile und ist für bestimmte Anwendungsfelder geeigneter als andere. Je mehr interaktive Systeme miniaturisiert und quasi unsichtbar werden, desto weniger sind klassische GUIs zur Bedienung geeignet. Gerade im Auto ist Spracheingabe (VUI) sehr vorteilhaft, um eine berührungslose Steuerung zu gewährleisten. Doch die Einsatzmöglichkeiten sind wesentlich vielfältiger: Nicht nur, wenn man gerade beide Hände braucht, ist ein aktiv auf die Stimme reagierendes System vorteilhaft, sondern auch dann, wenn man gerade nicht am Bildschirm sitzt und spontan eine Aufgabe lösen möchte. Amazons Alexa erobert gerade in Form eines kleinen Lautsprechers viele Wohnzimmer und Küchen und kommt komplett ohne Display aus. Das System ist immer aktiv und wartet auf den Trigger „Hey, Alexa“, nachfolgende Sprachanweisungen anzunehmen und zu bearbeiten.
VUI haben allerdings zunächst die Umsetzung der gesprochenen Sprache (Schallwellen) in Worte und Sätze zu meistern, um anschließend aus diesen Wortfolgen eine Bedeutung und Intention abzuleiten. Beispielsweise in lauten Umgebungen, bei fremden Sprechern, zu großem Abstand zum Mikrofon oder undeutlicher Aussprache kann aber schon die Umsetzung der gesprochenen Sprache in Worte problematisch sein. Zudem erfolgen bei reinen VUI auch die Antworten durch (synthetisierte) Sprachausgabe. Hier kann es in lauten Umgebungen vorkommen, dass die Antwort „untergeht“ oder der Nutzer möchte in der Öffentlichkeit nicht, dass Umstehende die Antwort des Systems mithören können. Auch lassen sich nicht alle Fragen gut per Audioausgabe oder direkter Interaktion beantworten, weshalb die meisten virtuellen Assistenten ein Display nutzen, auf dem ergänzende Darstellungen ausgegeben werden können.
CUI sind prinzipiell den VUI-Systemen sehr ähnlich, verzichten jedoch auf die Umsetzung von und in gesprochene Sprache. Damit wird eine mögliche Fehlerquelle ausgeschlossen, allerdings benötigt der Nutzer bzw. die Nutzerin so eine Tastatur und einen Bildschirm, um Texteingaben zu machen und die Antworten zu lesen. Wie bei VUI besteht auch bei CUI das Problem, dass der Nutzer nicht notwendigerweise weiß, was und wie er das System fragen kann: Bei GUI-Anwendungen reicht es, sich durch die Menüs und Schaltflächen zu klicken, um eine Funktion zu finden. Bei CUI-Systemen hingegen erwartet den Nutzer oder die Nutzerin eine leere Eingabezeile. Daher ist es umso wichtiger, dass CUI-Anwendungen mithilfe von Natural Language Processing (NLP) eine möglichst große Variationsbreite potenzieller Eingaben korrekt erkennen und beantworten können. Es sind also nicht feste Befehlskommandos und Satzbau-Konstrukte vorgegeben, sondern das System reagiert auf eingegebenen Freitext. Sollte ein Input nicht eindeutig sein, dann soll das CUI gegebenenfalls nachfragen und im Dialog eine Spezifizierung erfragen.
CUI sind besonders dort geeignet, wo AnwenderInnen ohnehin gewohnt sind, Texteingaben zu tätigen – also beispielsweise in Chat- und Messenger-Diensten. Hier kommt auch die zweite zentrale Eigenschaft von konversationellen Benutzeroberflächen (also CUIs) zum Tragen: Es entwickelt sich ein Dialog zwischen NutzerIn und CUI-basiertem System wie einem ChatBot oder einem virtuellen Assistenten. Dieser Dialog kann sich auch über lange Zeit mit Unterbrechungen hinziehen. Trotzdem sollte die CUI-Anwendung dann auf frühere Elemente des Dialogs Bezug nehmen können und nicht jede Eingabe als separates Kommando behandeln. Ein simples Beispiel zur Verdeutlichung:
Nutzer: „Was ist die Hauptstadt von Frankreich?“
System: „Paris“
Nutzer: „Wie viele Bewohner hat sie?“
Jetzt muss das System erkennen, dass sich die Anfrage auf „Paris“ bezieht, obwohl der Nutzer diesen Begriff nie erwähnt hat.
ExpertInnen erwarten, dass CUI- und VUI-Anwendungen in den kommenden Jahren stark an Bedeutung gewinnen werden. Die aktuellen Bots und virtuellen Assistenten sind erst die Spitze des Eisbergs und lernen jeden Tag hinzu.