Spracherkennung und emotionale Sprachsynthese

Spracherkennung und emotionale Sprachsynthese: Der Ton macht die Musik

Oder: Der Ton macht die Musik

Die Interaktion zwischen Menschen und Maschinen verlagert sich zunehmend von starren Terminals, Tastaturen und Monitoren der 1970er Jahre hin zu einer immer größeren Präsenz von Sensoren und Generatoren in Form von Smartphones und vernetzten Lautsprechern. Sprechen kann in diesem Zusammenhang als die natürlichste Form der Kommunikation angesehen werden. Gefühle erleichtern dabei das Verständnis von zuweilen vieldeutigen Sätzen. Anders wäre der Erfolgszug von Emojis nicht zu erklären. „Du bist doof“ – mit einem Blinzel-Gesicht wird diese Beleidigung zu einer Liebeserklärung oder einem Kompliment.


Dualismus von Gefühlen und Logik

„Ich denke, also bin ich“: Jahrhunderte galt dieser Grundsatz des Philosophen René Descartes (1596 bis 1650) als gesetzt und beeinflusste Wissenschaftler ebenso wie Denker. Descartes ist wohl einer der bekanntesten Vertreter dieses dualistischen Geist-Gefühl-Gegensatzes. Nicht das Gefühl schafft die Identität eines Menschen und macht ihn zum vernunftbegabten Wesen, sondern seine Fähigkeit zum Denken, so die Überzeugung. Gefühle? Zu vernachlässigen. Als wären wir alle Vulkanier. Doch nicht erst seit Spock und seinen Nachfahren im Geiste wie Data aus Raumschiff Enterprise korrigieren Forscher diese Lehrmeinung und finden immer mehr Beweise, dass intellektuelle Intelligenz ohne eine emotionale Intelligenz nicht viel wert ist. Einer von ihnen ist Antonio R. Damasio, Professor für Neurologie und Psychologie an der University of Southern California und Leiter des Brain and Creativity Institute.

Descartes’ Irrtum, so Damasio, „bestand darin, den Geist vom Körper abgrundtief zu trennen, anzunehmen, das Denken vollziehe sich losgelöst vom Körper und sei das eigentliche Substrat des Selbst“. Damasio stellt dem cartesischen Dualismus drei Thesen entgegen: [1]

  • Die Vernunft hängt von unserer Fähigkeit ab, Gefühle zu empfinden
  • Empfindungen sind Wahrnehmungen der Körperlandschaft
  • Der Körper ist das Bezugssystem aller neuronalen Prozesse

Je nach Forschungsschule wird zwischen vier oder mehreren Hauptgefühlen unterschieden. Die „Big Four“ sind Wut, Trauer, Freude und Angst. Sie sind kulturell universell und haben sich evolutionär ausgebildet. Diese Gefühle zu spüren und sie ausdrücken zu können, hilft uns, als Individuum in einer Gesellschaft zurecht zu kommen und als Menschheit zu überleben.

Der amerikanische Psychologe Paul Ekman (geboren am 15. Februar 1934) ist ein Pionier in der Untersuchung von Emotionen und ihrer Beziehung zu Mimik. Er schuf einen „Atlas der Emotionen" mit mehr als zehntausend Gesichtsausdrücken und erwarb sich so einen Ruf als der beste menschliche Lügendetektor in der Welt. Motiviert aus seiner Forschung über typische emotionale Gesichtsausdrücke identifizierte er sechs universelle Emotionen, die als "Ekman Big Six“ bekannt wurden: Ärger, Freude, Trauer, Ekel, Überraschung.


Ohne Emotionen ist alles nichts

Gefühle haben also einen entscheidenden Anteil an Kommunikation und erleichtern diese, machen sie zuweilen erst möglich und erfolgreich. Worte sind eben mehr als aneinandergereihte Buchstaben. Und menschliche Sprache ist viel mehr als nur deutliche Aussprache und die Aneinanderreihung von mehreren Worten. Menschliche, sprachliche Kommunikation ist mindestens ebenso stark geprägt durch den emotionalen Ausdruck in der Stimme des Sprechenden. Ein zweiter Informationskanal liegt gewissermaßen wie eine Hülle um die geäußerten Worte, der verdeutlicht, ob die Botschaft wichtig ist, ob sie ernst gemeint ist, ob der Sprecher sich darüber freut oder traurig ist. Ohne das Verständnis des Kontextes und des Sentiments eines Sprechers ist seine Botschaft nur begrenzt verständlich.

Für einen natürlicheren und intuitiveren Umgang mit künstlicher Intelligenz ist es daher unerlässlich, dass sie zum einen die kontextuellen Gefühle ihres Gegenübers ebenso versteht wie die semantische Botschaft an sich. Zum anderen muss sie adäquat darauf reagieren sowohl was Inhalt als auch Form der Reaktion angeht. Diese Reaktion muss dabei den erlernten Konventionen entsprechen. Wer als Kunde wütend bei einer Hotline anruft, erwartet Verständnis und Lösung seines Problems und keine AI, die ihn auslacht.


Einsatz emotionaler Spracherkennung und –synthese

Ein Usecase wäre der vorgeschaltete Einsatz in Warteschleifen. Die KI erkennt die wütenden Anrufer und verteilt sie gleichmäßig an die menschlichen Agenten, bzw. leitet sie dem psychologisch am besten geschulten Mitarbeiter weiter. Im Monitoring von Social Media könnte es ebenfalls hilfreich sein, Ironie oder Sarkasmus zu erkennen und zu verstehen, zum Beispiel wenn etwas, das nach Lob klingt, in Wirklichkeit eine harsche Kritik ist. In einer Smart-Home-Umgebung wiederum könnte der Computer die Umgebung an die Stimmung seines Bewohners anpassen.

Gleichwohl sollten die Maschinen nicht von heute auf morgen emotional reagieren, dies würde uns alle überfordern. Noch ist es gelernt, dass man im Kontakt mit einem digitalen Assistenten klipp und klar sein Anliegen formuliert. Dass Siri oder Alexa Ironie oder Sarkasmus verstehen, erwartet (noch) kein User. Allerdings reagieren die digitalen Helferlein in manchen Situationen bereits emotional angemessen. Wer seinen Sprachassistenten beschimpft, wird sanft gerügt und bekommt keine Suchergebnisse vorgeschlagen, wie es bei einem „neutralen“ Wort der Fall wäre.
 

Die Zukunft ist emotional

Dies wird sich in den kommenden Jahren ganz evolutionär ändern, im selben Tempo wie die Forschung Möglichkeiten der emotionalen Sprachsynthese findet. So wird es dann möglich sein, die Dringlichkeit bei automatischen Status-Ansagen zu differenzieren. Ist der Defekt im Auto vernachlässigbar oder sollte man sofort anhalten? Wie schlimm es ist, wird man am Klang der Ansage erkennen. Künstlich animierte Agenten würden glaubwürdiger durch ihren emotionalen Sprechausdruck, soziale Normen könnten endlich auch berücksichtigt werden: Besondere Angebote können als etwas tatsächlich Besonderes vorgetragen werden, automatisierte Entschuldigungen klingen dann tatsächlich bedauernd.

Nicht zuletzt im Gesundheitsbereich könnte emotionale Sprachsynthese das Leben von Aphasie-Patienten erleichtern, die zum Beispiel nach neurologischen Erkrankungen unter Sprachverlust leiden.


Ansätze emotionaler Sprachsynthese


Die Ansätze emotionaler Sprachsynthese sind so zahlreich wie die Algorithmen an sich. Grundsätzlich lassen sich vier Ansätze unterscheiden:

  1. Artikulatorische Synthese: Die akustischen Spezifika des menschlichen Sprechapparats werden durch mathematische Modelle modelliert. Emotionale Sprecherzustände können dann direkt als Muskelspannungen berücksichtigt werden.

  2. Formant-Synthese: Der menschliche Sprechtrakt wird durch digitale Schaltungen modelliert. Die Schwierigkeit besteht dann vor allem darin, die Dynamik des Sprechvorgangs abzubilden. Ein Modell für "emotional neutrale" Sprechweise wird dann so adaptiert, dass der Sprechausdruck emotionale Erregung simuliert.

  3. Datenbasierte Synthese: Die künstliche Sprache wird durch Verkettung vorhandener Sprachsamples erzeugt, das Ergebnis wird möglichst wenig im Signal manipuliert, um Artefakte zu vermeiden. Der emotionale Ausdruck muss dann Teil der Datenbank sein – und entsprechend gekennzeichnet.

  4. Synthese basierend auf künstlichen neuronalen Netzen: Letztendlich ein Spezialfall datenbasierter Synthese, auch hier muss die Emotion/der Sprechstil des Gesprochenen in der Trainingsdatenbank gekennzeichnet sein.



Vorsicht Ironie!

Ein besonderer Aspekt menschlicher Kommunikation – und damit eine besondere Herausforderung an Maschinen – ist die Tatsache, dass wir zuweilen etwas sagen, aber das Gegenteil meinen. Ironie (oder ihre Brüder Sarkasmus, Zynismus und Sardonismus) sind nicht immer leicht zu erkennen. Sie müssen kulturell erlernt werden: Kinder verstehen nicht, dass „ein schöner Tag“ und die erhobene Augenbraue das Gegenteil bedeutet und ein gebrülltes „Tolles Brot!“ eben keine qualitativ hochwertige Backware meint. Kinder verstehen den „Ton des Gesagten“ nicht und nehmen die Worte für bare Münze.

Gleiches gilt für Maschinen. Dadurch wird der gewünschte Inhalt der Botschaft von der AI oft massiv fehlbewertet. Um für zukünftige Entwicklungen gewappnet zu sein, hat die Deutsche Telekom in Kooperation mit der Firma audEERING einen Technologie-Demonstrator entwickelt. Dieser Demonstrator nimmt eine Sprachprobe auf, analysiert sie und liefert als Ergebnis Werte für die

  • Stimmliche Erregung (Aktivität) 

  • Stimmliches Wohlgefühl (Valenz)
  • Textuelles Sentiment: positiv – negativ – neutral


Wenn die Werte für das stimmliches Wohlgefühl und die Werte für das Textsentiment auseinander gehen, leuchtet eine Ironie-Warnlampe. Wird starker Ärger erkannt, leuchtet eine Ärger-Warnlampe.
 Die KI kann die Kommunikation entsprechend bewerten und angemessen reagieren.

Die Technologie der emotionalen Verarbeitung wird die Mensch-Maschine-Kommunikation revolutionieren. Die Berücksichtigung von nonverbalem Ausdruck ist eine notwendige Voraussetzung für eine natürliche und bequeme Interaktion zwischen Menschen und automatischen Systemen.

-----------------------------------------------------------------------------------------

Quellenangaben:

[1] Spektrum.de: Descartes' Irrtum. Fühlen, Denken und das menschliche Gehirn.
vom 01.05.1997, (abgerufen am 23.08.2017)

Kommentare
Einen Kommentar schreiben
Entschuldigung

Ihr Browser ist leider nicht aktuell genug.
Um diese Webseite zu benutzen, benötigen Sie einen aktuellen Browser
Wir empfehlen einen der folgenden Browser in der aktuellsten Version zu installieren.

Auf iOS Geräten sollte mindestens die Betriebssystem Version iOS 9 installiert sein.

Mozilla Firefox Google Chrome Microsoft Edge Internet Explorer