Website-Icon mobile zeitgeist

KI in der Spracherkennung: Alexa und Siri werden erwachsen

Künstliche Intelligenz als SpracherkennungKünstliche Intelligenz als Spracherkennung

Quelle: pixabay, Gerd Altmann

“Mein Kind versteht mich nicht und macht nicht das, was ich sage.” Viele kennen Eltern, die über ihre Kinder klagen, die einfach nicht lernen wollen. Neu ist jedoch, dass der Nachwuchs heutzutage auch Alexa oder Siri heißen kann. Spracherkennung erobert mehr und mehr unser zu Hause und überwinden in bisher ungeahnter Weise die Mensch-Maschine-Trennung. Bei all dem Hype um künstliche Intelligenz und wie sie dank smarter Systeme mehr und mehr Einzug in unsere Gesellschaft hält, fragt man sich, ob die KI-Kinder inzwischen vielleicht auch erwachsen geworden sind oder ob sie weiterhin an Lernschwächen leiden.

Dauerhaftes Lernen durch Machine Learning

Spracherkennung funktioniert in seiner Basis auf Machine Learning, einem Teilbereich der KI. Maschinelles Lernen bedeutet mithilfe von Algorithmen das Erkennen von Mustern und Gegebenheiten aus bestehenden Daten-Beständen. Das System erschafft sein “Wissen” aus Erfahrungen, welche es aus immer wiederkehrenden Mustern von Daten abgelesen hat. Das Lernen geschieht also nicht autonom. Der Mensch muss die KI mit relevanten Daten füttern, die Regeln der Analyse festlegen und auch die Ergebnisse bewerten. Von einer künstlichen Intelligenz in dem Sinne, dass diese wirklich eigenständig Lösungsansätze entwirft, kann nicht die Rede sein.

Vielmehr kann Machine Learning dabei helfen, Daten zu finden, diese zu extrahieren, eine Zusammenfassung zu erstellen, Wahrscheinlichkeiten zu berechnen und auch anhand von Analysen Vorhersagen zu treffen. Letztlich dient der Prozess dazu, mittels der wiederkehrenden Muster eine Optimierung zu erreichen.

Grund des Erfolgs: Mehr und schneller

Damit Machine Learning heutzutage so effizient funktioniert, sind zwei Faktoren verantwortlich: Mehr Daten in kürzerer Zeit. Zum einen haben wir dank Big-Data einen bisher ungeahnten Zugriff auf Datenmengen, welche die Basis für die umfassende Datenanalyse bilden. In Cluster geschaltete, moderne Rechner mit verbesserten Speicherkapazitäten können Datenmassen zudem in Rekordzeit verarbeiten.

Aktuell läuft Machine Learning hauptsächlich in der Weise ab, dass vorab Beispielmodelle festgelegt und anhand dieser mit Algorithmen Muster erkannt werden. Die weitere Entwicklung soll jedoch dahingehend verlaufen, dass die KI ihre eigenen Modelle erstellt und daraus selbst Muster ableitet.

Sprachassistenten reagieren bisweilen kurios und schlagfertig

Sprachassistenten nutzen Machine Learning, um immer effizienter und schneller Sprachbefehle zu erkennen. Obwohl viele Videos anschaulich darstellen, was mit Alexa und Siri möglich ist, kursieren im Netz häufiger auch kuriose Videos, die aufzeigen, wie unfähig die Spracherkennung bisweilen noch ist, aber zugleich auch, wie schlagfertig die Programmierer die Sprach-Helferleins entworfen haben.

In diesem Video zeigt Amazons Alexa, was sie drauf hat:

Was bringen Alexa und Siri wirklich?

Am Anfang ist es spannend, so einen Sprachassistenten auszuprobieren und unterschiedliche Fragen zu stellen. Kaum zieht aber der Alltag ein, merkt man, welchen Nutzen man wirklich davon trägt. Und da besitzt man stellenweise das Gefühl, den Wald vor lauter Bäumen nicht zu sehen. Obwohl es derart viele Sprachbefehle gibt, die man anwenden könnte, wird einem nach und nach bewusst, dass man Alexa und Siri nur wirklich elementare Dinge fragt. So ergibt eine Studie, dass die Deutschen eher bescheiden im Umgang mit Sprachassistenten sind. (Quelle: Studie zu Sprachassistenten: Skepsis überwiegt, Digitalbusiness-Cloud)

Am beliebtesten sind Fragen nach Wetter und Verkehr

Einfache Service- und News-Fragen stehen demnach hoch im Kurs. Das sind beispielsweise die Frage nach dem Wetter, Verkehrsmeldungen oder Ortsauskünfte. Des Weiteren werden Sprachassistenten beim Hören von Musik verwendet oder der Suche nach Songs. Schlusslicht bilden die “echte” Kommunikation mit dem Gerät und Smart-Home-Anwendungen. Viele sind sich in ihrer Nutzung unschlüssig, ob sie Sprachassistenten für hilfreich oder lediglich nur als Spielerei empfinden. Und die wenigsten glauben, dass sie sich wirklich in der Gesellschaft durchsetzen werden. Nur jüngere Nutzer erkennen in der Technologie ein Zukunftspotential.

Viele User sind skeptisch

Woran liegt das? Einerseits sind die Gründe für die zaghafte Nutzung von Sprachassistenten in der Unsicherheit der Nutzer zu finden. Viele sind skeptisch, wenn es um Datenschutz und Spracherkennung geht. Wer erhält meine Anfragen? Was geschieht mit meinen codierten Sprachdaten? Dies hindert viele Nutzer daran, offen und direkt mit Alexa oder Siri zu kommunizieren. (Quelle: Spracherkennung: Warum wir ungern mit Computern sprechen, 21.07.16, iq.intel.de)

Für manche wirkt das Problem sogar noch tiefer. So gehe es nicht nur allein um die Datensicherheit, sondern auch um die Frage, ob man bereit ist, privaten Großkonzernen einfach so seine Daten zu überlassen. Im Grunde haben sich Apple, Amazon, Google und Microsoft mit wenigen anderen Konzernen den Markt aufgeteilt. Siri, Alexa, Google Assistant und Cortana sind die geläufigsten Sprachassistenten. Mit unseren Sprachbefehlen verhelfen wir dem Machine Learning der Unternehmen weiter auf die Sprünge und tragen so zu dessen Produktverbesserung bei.

Wir sprechen nicht gern mit Computern

Unabhängig von der Frage der Sicherheit ist es jedoch die KI selbst, mit der viele Menschen nicht warm werden können. Die Gründe sind hierbei weniger technischer, sondern soziologischer Natur. Für viele von uns ist es schlicht unangenehm oder gar peinlich, mit einer KI zu sprechen. Schließlich verbirgt sich hinter der KI kein physischer Mensch, weswegen einem die Kommunikation schwerfällt. Vielmehr besitzt man stets das Gefühl, ein Selbstgespräch zu führen. Seltsamerweise wird dieses unbehagliche Gefühl sogar noch stärker, je menschenähnlicher die Computerstimme spricht, also auch menschliche Nuancen simuliert hat oder Versprecher nachahmt.

Ein gutes Beispiel dafür wie echt eine Computerstimme heutzutage sein kann, zeigt der Google Assistant in seiner neuesten Version Duplex auf der diesjährigen Entwicklerkonferenz des Unternehmens. Google Assistant bestellt einen Tisch in einem Restaurant und unterhält sich dabei mit einer menschlichen Mitarbeiterin. Ohne es vorher zu wissen, würde man nicht erahnen, dass hier eine KI spricht.

https://www.youtube.com/watch?v=bd1mEm2Fy08

Wem diese erstaunlichen Erkennungsmuster bereits bei Sprache nicht geheuer sind, der wird sich erst recht nicht mit biometrischer Erfassung anfreunden können. Künstliche Intelligenz kann auch dahingehend trainiert werden, Emotionen aus Gesichtern abzulesen und diese zu bewerten. Je nachdem, wie man beispielsweise auf sein Smartphone schaut, kann die KI durch die Kamera daraus Schlüsse ziehen, wie man sich gerade fühlt. Strahlt die Mimik Wut aus, könnte die KI einen beruhigen, bei Trauer, einen trösten. Allein die Vorstellung, von einer KI derart analysiert zu werden, geht vielen zu weit.

Sind wir kulturell auf Technikangst geprägt worden?

Neben Unsicherheit und Peinlichkeit empfinden viele Menschen auch eine gewisse Scheu, wenn es um KI oder Computerstimmen geht. Dieses Gefühl kann sogar in Angst ausarten. Und dies unterbewusst. Kulturell sind wir durch Bücher, Filme und Games vieler Sci-Fi-Autoren geprägt worden. Es steht zur Debatte, inwieweit diese Medien jedoch wirklich Einfluss ausüben. Filme  wie “Matrix” oder “Terminator” werden in ihrer Darstellung der Vorherrschaft der KI und Maschinen über die Menschen gerne als Beispiel für Technikangst genommen.

Wenn die KI Bürgermeisterkandidat ist

Im asiatischen Raum scheint gegenüber künstlicher Intelligenz eine aufgeschlossenere Haltung vorzuliegen. In der japanischen Stadt Tama ist beispielsweise eine künstliche Intelligenz dieses Jahr als Bürgermeister-Kandidatin aufgestellt worden. “Ihre” Kampagne beruhte darauf, allein mittels Berechnung die besten Lebensumstände der Bürger zu ermitteln. Und das objektiv, da sie nicht den Makel der Subjektivität eines Menschen besitzt. Zwar erreichte die KI so nur den letzten Platz in der Wahl und rief viel Kritik hervor, doch im westlichen Raum wäre allein der Gedanke unvorstellbar. (Webseite der KI zur Wahl im japanischen Tama, Kurios: In Japan tritt KI bei Bürgermeisterwahl an, notebookcheck, 17.04.2018)

Erfolg von Spracherkennung und KI hängt von menschlicher Akzeptanz ab

Die Haltung, welche wir zu künstlicher Intelligenz einnehmen, ist eine persönliche. Manchen machen die Stimmen von Alexa oder Siri nichts aus, andere können sie nicht leiden, weil sie diese unterbewusst mit einer fremden und unheimlichen KI in Verbindung bringen.

KI ist und bleibt jedoch einer der wichtigsten Anker für die technologische Zukunft. Neben der Etablierung der Technik selbst, ist es allerdings auch die gesellschaftliche Akzeptanz, die einen Dreh- und Angelpunkt für den Erfolg künstlicher Intelligenz sein wird.

Quellen:

Youtube: https://www.youtube.com/watch?v=GaEmPVBr5Eg

Studie zu Sprachassistenten: Skepsis überwiegt, Digitalbusiness-Cloud

Spracherkennung: Warum wir ungern mit Computern sprechen, 21.07.16, iq.intel.de

Youtube: Google Duplex: A.I. Assistant Calls Local Businesses To Make Appointments

Webseite der KI zur Wahl im japanischen Tama, Kurios: In Japan tritt KI bei Bürgermeisterwahl an, 17.04.2018, notebookcheck

Die Maschine killt ihre Schöpfer, 11.05.16, derstandard.at

Die mobile Version verlassen