Wissenschaftsreportage Technik Eva Wolfangel

Die ZEIT, 7. Februar 2019 - Ausschnitt

Gefühle und Krankheiten, sogar Persönlichkeitsmerkmale lassen sich aus der  menschlichen Stimme heraushören. Wir selbst sind dafür taub, aber Maschinen entschlüsseln  die versteckten botschaften. Das sollte uns Sorgen machen

Björn Schuller ist ein mitreißender Redner. Aus seinem Mund fließen keine gleichförmigen, neutralen Sätze, es ist ein Auf und Ab, es wechseln euphorische Passagen mit nachdenklichen ab, er berichtet von Erfolgen und Herausforderungen in seiner Forschung rund um Computer, die Emotionen von Menschen entschlüsseln können. Das Publikum weiß, was er sagen wird, alle sind mit dem Thema befasst – dennoch hören alle gebannt zu. Es ist alles anders als bei vielen wissenschaftlichen Konferenzen: bei dieser Keynote der Konferenz „interEmotio“ des BMBF im Januar 2018 in Bonn macht das Zuhören Spaß.



Wer den Augsburger Informatik-Professor hinterher spricht, erfährt von seinem  seinem Trick, der ihn zu einem gefragten Redner gemacht hat. Das war er keinesfalls schon immer – wie eine  Recherche auf Youtube eindrücklich beweist: Björn Schuller konnte auch langweilig. Er beschäftigt sich seit 18 Jahren mit der Frage, inwiefern sich Emotionen allein aus der Stimme ablesen lassen. Er hat die Stimmen erfolgreicher Youtuber ausgewertet – und schließlich konnte sein System allein aus den Stimmdaten treffsicher vorhersagen, wie beliebt ein Film bei den Zuschauern ist. Der Algorithmus hat ein zentrales Muster gefunden: die Abwechslung zwischen positiven und negativen Emotionen. Also macht Schuller es nun auch so in seinen Vorträgen: zwischen zwei Highlights platziert er einen nachdenklichen Inhalt oder eine ungelöste Frage. „Es funktioniert.“

Doch Schuller ist auch ein Unternehmer. Vorort-Termin in Gilching beim Startup Audeering, das die Emotionserkennung  perfektionieren will: Zwei Mitarbeiter mühen sich verzweifelt, eine App zu präsentieren, die Gefühle aus der Stimme erkennt. Doch es will nicht so recht funktionieren. So „glücklich“ der Entwickler Milenko Saponga auch versucht zu klingen – die App präsentiert „neutral“ als Gemütszustand.

Sein Chef kommt Saponga schließlich zu Hilfe: „Das Problem ist, dass das System auf echten Emotionen trainiert ist“, erklärt Schuller lächelnd, „aber wenn wir es jetzt vorführen, müssen wir Emotionen nachahmen.“ Die Idee hinter solchen Systemen ist, aus der Stimme Informationen zu bekommen, die Menschen im Gespräch nicht mitteilen. Saponga wurde also überführt als nur scheinbar glücklich und schweigt lieber.  „Wir können sogar die Persönlichkeit entschlüsseln, allein aus der Sprache“, ergänzt dafür sein Kollege Hesam Sagha begeistert. Psychologen müssten dafür viele Fragebögen ausfüllen oder lange Therapiegespräche führen. „Es ist doch viel einfacher, ein paar Sekunden zu sprechen.“

Offenbar hinterlassen unsere Emotionen ebenso wie Persönlichkeitsmerkmale eindeutige Spuren in unserer Stimme, sie wird zum Verräter.  Entsprechende Technologien erleben derzeit einen Aufschwung, weil die Daten dazu quasi „auf der Straße“ liegen: schließlich sprechen immer mehr Menschen mit ihren Geräten. Die modernen Systeme des maschinellen Lernens sind perfekte Mustererkenner. Und die Industrie wird langsam aufmerksam: Die Emotionen von Menschen auslesen zu können, ist verlockend für allerlei Branchen. Bisherige Technologien waren zu unzuverlässig – und sie liefen meist auf Systeme mit Kameras hinaus, die Gesichtsausdrücke scannen. Das macht Menschen misstrauisch, unsere Stimme lässt sich viel unauffälliger aufzeichnen.

Darum ist jetzt der richtige Zeitpunkt, in die Szene der Stimmenleser hineinzuhorchen, bevor wir in ein paar Jahren überrascht feststellen, wie nackt wir sind.

...

(Das ist nur der Anfang meiner aktuellen Geschichte über das Fühlen in der digitalen Welt in der ZEIT 07/2019. Aus rechtlichen Gründen erscheint sie hier nicht komplett. Hier kann man weiterlesen.)