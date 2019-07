Alexa, Siri & Co. sind aus dem Alltag vieler Menschen nicht mehr wegzudenken. Hier die aktuellsten News, da eine schnelle Navigation per Spracheingabe, und nebenbei werden die Lieblingshits gestreamt. Sprachassistenten ermöglichen die intuitive Interaktion mit Technik, liefern Service und Information. Dabei sind sie nicht nur im Alltag nützliche Helfer, sondern eröffnen insbesondere Unternehmen großes Potenzial, die Mensch-Maschine-Interaktion zu erleichtern und völlig neue Dienstleistungen für Industriekunden anzubieten. Forscherinnen und Forscher des Fraunhofer-Instituts für Intelligente Analyse- und Informationssysteme IAIS arbeiten an einem neuen Dialogsystem für domänenspezifisches Wissen, das sich dank Technologien des »Informierten« Maschinellen Lernens (ML) deutlich von Alexa, Siri und Co. abgrenzen soll. Im Interview mit mobile zeitgeist erklärt Hagen Jaeger, Project Leader und Research Engineer bei Fraunhofer IAIS, wie solch ein smarter Sprachassistent aussieht.



mz: Sie entwickeln am Fraunhofer-Institut IAIS ein Dialogsystem, dass sich dank Machine Learning von Alexa, Siri und Co. unterscheiden soll. Können Sie näher darauf eingehen?

Generell nutzen alle sprachbasierten Dialogsysteme Methoden aus dem Bereich des maschinellen Lernens – auch Alexa, Siri und Co. Wir unterscheiden uns in der Art und Weise, wie wir diese Methoden anwenden und die einzelnen Technologien zugänglich machen. Die genannten Sprachdialogsysteme sind auf generellen Wissensdatenbanken trainiert und werden sowohl der Industrie, als auch dem Endanwender über Cloud-Services, die sich im Besitz des Dienstanbieters befinden, zugänglich gemacht. Wir unterscheiden uns dadurch, dass wir unsere Algorithmen für bestimmte Domänen trainieren und sie durch diese Anpassung robuster machen. Unser sprachbasiertes Dialogsystem besteht aus drei wesentlichen Komponenten: Spracherkennung (Speech-to-Text), textbasiertes Dialogsystem (vgl. Chatbot), und Sprachsynthese (Text-to-Speech). Jede dieser Komponenten ist separat verfügbar, wurde am Fraunhofer IAIS entwickelt und benötigt keine externen Software-Services um zu funktionieren. Das heißt auch, dass unsere Komponenten auf einem Zielsystem bereitgestellt werden können, das nicht auf Cloud-Infrastrukturen des Dienstanbieters und eine Internetanbindung angewiesen ist.

„Die Informationsausgabe über Sprache bringt Vorteile, da sie das von Menschen bereits Gelernte nutzt“

mz: Welche Einsatzfelder eignen sich besonders gut für smarte Sprachassistenten?

Sprache ist eine der natürlichsten Methoden zum Informationsaustausch. Dementsprechend lassen sich Sprachassistenten besonders gut dort einsetzen, wo eine Informationsweiterleitung über das gesprochene Wort üblich und sinnvoll ist, und wo eine Vielzahl an Informationen und Funktionen über eine möglichst intuitive Bedienung zugänglich gemacht werden soll. Die Informationsausgabe über Sprache bringt ebenfalls Vorteile mit sich, da sie das vom Menschen bereits gelernte Verstehen von Sprache als zusätzliche Methode zum Informationsaustausch nutzt.

mz: Während Alexa, Siri und Co. eher auf den Endanwender ausgerichtet ist, fokussiert Ihr Forscherteam vor allem Unternehmen? Welche Vorteile haben diese mit Ihrem Sprachassistenten im Berufsalltag?

Der Vorteil an industriellen Anwendungsbeispielen ist, dass diese in der Regel auf eine bestimmte Domäne spezialisiert sind, und somit die abfragbaren Inhalte und Funktionen effektiv limitiert werden können. Dadurch ist es möglich, leistungsfähige Sprachassistenten für eine Vielzahl von Anwendungsfällen zur Verfügung zu stellen, die durch eine domänenspezifische Anpassung robuster und leichtgewichtiger sind als domänenunspezifische Varianten. Unsere Industriepartner können die Software-Technologien in ihre Produkte integrieren, um deren Bedienung zu vereinfachen, Informationen intuitiv abrufbar zu machen, und eine freihändige Bedienung zu ermöglichen. Wir adressieren aber auch Unternehmen, die unsere Software in eigene Hardware einbetten und damit wiederrum an ihre Industriepartner herantreten. Ein Beispiel dafür ist unsere Zusammenarbeit mit dem Unternehmen divvoice (https://divvoice.com/), die mit „MiGA“ (My intelligent Gastronomy Assistant) und „MiCA“ (My intelligent Choice Assistant) zwei Produkte auf den Markt einführen möchten, die Sprachassistenz stärker in die Industrie und den Franchise-Markt bringen sollen ­– mit Fraunhofer-Technologie on Board.

Smarte Sprachassistenten eröffnen für die Industrie 4.0 zahlreiche Möglichkeiten

mz: Ein weiteres Anwendungsfeld eines smarten Sprachassistenten liegt im Bereich von Industrie 4.0. Wie kann ihre Technologie hier dazu beitragen, der Arbeitswelt der Zukunft auf die Sprünge zu helfen?

Die intuitive und freihändige Bedienung von Computern und Maschinen mit sprachlichem Feedback, sowie das Zugänglichmachen großer Mengen an Wissen und Informationen durch sprachbasierte Dialogsysteme eröffnet für die Industrie 4.0 zahlreiche Möglichkeiten. Allein die Tatsache, dass das vom Menschen gesprochene Wort in einer abstrakten, durch Maschinen einfacher bearbeitbaren Art und Weise vorliegt schafft zahlreiche Möglichkeiten, die Vernetzung von Geräten voranzutreiben. Die Möglichkeit, Wissen in modernen Strukturen abzuspeichern und zugänglich zu machen, eröffnet neue Wege für die Automatisierung. Sprachassistenz – es ist bereits im hinteren Teil des Wortes zusammengefasst – ist dabei eine Technologie, die den Menschen unterstützen, Arbeitsabläufe und Prozesse vereinfachen und die Effizienz steigern soll. Eine Technologie vom Menschen für den Menschen.

mz: Wie sehen sie die weitere Entwicklung von Sprachassistenten? In welchen Bereichen glauben Sie, dass diese in Zukunft zum Einsatz kommen werden?

Meine persönliche Einschätzung ist, dass der Informationsaustausch zwischen Menschen und Maschinen zukünftig immer stärker über Sprache passieren wird. Denken Sie einmal zurück an die rasante Entwicklung des Touch-Displays in mobilen Endgeräten. Wenn Sie auf Ihrem Smartphone einen interessanten Inhalt sehen, ein Menü bedienen, oder eine App nutzen möchten, dann tippen Sie einfach direkt darauf. Das ist einfach und intuitiv. Genauso ist es mit der Spracheingabe. Anstatt der Maschine über eine Vielzahl von echten oder grafisch dargestellten Bedienelementen wie Knöpfen, Reglern und Menüs zu vermitteln, was man eigentlich möchte, sagt man es ihr einfach und bekommt auch ein akustisches Feedback. Das heißt nicht, dass Sprachassistenz die Benutzeroberflächen komplett ablösen soll, denn visuelles Feedback ist wichtig und macht das Nutzererlebnis oftmals erst ganzheitlich. Sprachbasierte Dialogsysteme können und werden Informationen aber leichter zugänglich machen und die Mensch-Maschine-Kommunikation erheblich vereinfachen.

Ich sehe sprachbasierte Dialogsysteme künftig in mehreren Bereichen. Sie sind überall dort ideal, wo es darum geht komplizierte Eingabestrategien, wie verschachtelte Menüführungen, abzulösen. Wo freihändige Informationsein- und -ausgabe wichtig ist. Wo Barrieren durch Bedienung über Sprache verringert werden können. Den Ideen zu konkreten Anwendungsbeispielen sind keine Grenzen gesetzt.

mz: Vielen Dank für das Interview.