Sprachwissenschaft meets HPC: Videoanalyse zur Erkennung sprachbegleitender Gestik

Interview mit HPC-Kunde Dr. Peter Uhrig vom Lehrstuhl für Anglistik, insbesondere Linguistik

Die Brücke von der Linguistik, also der Wissenschaft von der menschlichen Sprache, zum Hochleistungsrechnen erschließt sich für den unbedarften Betrachter nicht sofort. Und doch ist Dr. Peter Uhrig, wissenschaftlicher Mitarbeiter und Habilitand am Lehrstuhl für englische Linguistik im Institut für Anglistik und Amerikanistik der FAU, ein aktiver Nutzer der HPC-Systeme am RRZE. Im Interview erlaubt er uns einen Blick in sein faszinierendes Forschungsgebiet. (BI95, GHa)

Herr Uhrig, unsere HPC-Kunden kommen ja zumeist aus dem Bereich der Natur- und Ingenieurwissenschaften. Linguisten verirren sich nur selten zu uns, deswegen zunächst ein paar allgemeine Fragen. Was bedeutet Linguistik heutzutage? Was wird am Lehrstuhl für englische Linguistik untersucht?

Das Spektrum linguistischer Forschung ist sehr breit, geografisch wie zeitlich. An unserem Lehrstuhl beschäftigen wir uns hauptsächlich mit Grammatik, Wortverbindungen und Wörterbuchforschung in der englischen Gegenwartssprache. Wir versuchen auch, Modelle der Vorgänge beim Sprechen und Hören im Gehirn zu erstellen. Auch wie unser immenses sprachliches Wissen im Gehirn gespeichert wird, ist eine hochinteressante Frage. Ich selbst befasse mich mit computerbasierter Korpuslinguistik, das heißt speziell mit Techniken zur Auswertung großer Textsammlungen.

Könnte man sagen, dass Sie damit zu den „Digital Humanities“ gehören?

Aus heutiger Sicht ja. Die computerbasierte Korpuslinguistik ist zwar schon älter als dieser Begriff, aber wir sehen derlei Methoden inzwischen in nahezu allen geisteswissenschaftlichen Disziplinen. Denken Sie nur an elektronische Archive von Kunstwerken oder antiken Schriften; allein die Verfügbarkeit solcher Medien hebt die Forschung daran auf ein ganz anderes Niveau.

Ihr Schwerpunkt ist die „multimodale Korpuslinguistik“, das ist ja „quite a mouthful“, wie die Briten sagen. Auch Ihre Präsentation im „HPC Village“ bei der letzten Langen Nacht der Wissenschaften hat sich darum gedreht. Was verbirgt sich dahinter?

Lange ging es bei der Korpuslinguistik nur um das geschriebene Wort, obwohl die menschliche Kommunikation wesentlich vielschichtiger ist. Allein die Art, wie etwas ausgesprochen wird, kann den Sinn deutlich verändern, ganz zu schweigen von Gesichtsausdrücken und Körpersprache. Die Datenmengen, die bei der Erfassung von Audio- und Videomaterial anfallen, hätten früher für ein halbwegs repräsentatives Korpus einfach die verfügbaren Speicherkapazitäten gesprengt. Heute ist das anders, und wir haben die Möglichkeit, Texte, Audio und Video in effizienter Weise zu verknüpfen. Das erlaubt ganz andere Einblicke in die Sprache.

Was ist Korpuslinguistik?

Die Korpuslinguistik ist eine Methode der Sprachwissenschaft und beschäftigt sich mit der Analyse von Sprache basierend auf realen Sprachdaten. Anhand geschriebener (oder auch gesprochener) Texte werden Hypothesen über den Aufbau, die Verwendung und die Entwicklung einer Sprache entwickelt und überprüft. Diese Textsammlungen heißen „Korpora“. Erst mit den Möglichkeiten der Datenverarbeitung wurde es möglich, Korpora effizient für linguistische Analysen zu nutzen, deswegen ist die Korpuslinguistik eine recht junge Methode.

Können Sie das mit einem Beispiel verdeutlichen?

Stellen Sie sich vor, jemand fragt Sie: „Wie war Deine Dienstreise nach Paris?“ Das kann eine vollkommen neutrale Frage sein. Wenn die Person aber das Wort „Dienstreise“ langsamer und deutlicher ausspricht und gleichzeitig noch mit ihren Fingern Anführungszeichen in die Luft malt, dann ändert sich die Bedeutung plötzlich. Jetzt klingt es wie der Vorwurf, die Reise hätte eigentlich dem Vergnügen gedient. Ohne akustische und visuelle Information geht diese Art von Information verloren. Humor, Ironie, Sarkasmus, all diese Dinge können audio-visuell besser unterstrichen werden. Deswegen behilft man sich ja in reinen Textnachrichten mit Emojis. Dieses Problem ist nicht nur Experten bewusst, sondern war auch für die vielen Besucher des „HPC Village“ das Faszinierende an unserer Live-Vorführung. Erfreulicherweise hat es unsere Demo ja sogar auf die Titelseite der Nürnberger Zeitung geschafft.

Werden die Forschungsergebnisse auch für kommerzielle Zwecke genutzt?

Nicht direkt von mir, aber es gibt verschiedene Anwendungen. Man weiß zum Beispiel, dass politische Kommunikation, sei es in Ansprachen oder politischen Talkrunden, zur Meinungsbeeinflussung genutzt wird. Eine große Rolle spielt hier Humor und Ironie. „Influencer“ und selbst Regierungen setzen diese Mittel ein, und die Perspektivierung durch Aussprache und Gestik ist da ein wichtiger Punkt. Multimodale Korpora können helfen, solche Strategien aufzudecken und zu untersuchen.

Eine direkte Anwendung findet sich bei der Verbesserung digitaler Sprachassistenten (Siri, Alexa, etc.). Wenn diese in die Lage versetzt werden, aufgrund der Gestik und Mimik besser festzustellen, was die Benutzer wollen oder sich anzupassen, wenn Benutzer offensichtlich genervt sind, dann würden der Nutzen und die Akzeptanz solcher System sicher steigen.

Eine weitere kommerzielle Verwertbarkeit könnte im Rahmen von Archivlösungen für Radio- und Fernsehprogramme liegen. Video- und Audiomaterial, das mit der Text-Transkription synchronisiert wurde und vielleicht noch Annotationen für die Körpersprache enthält, ist wesentlich wertvoller als das Video alleine.

Annotationen für Körpersprache?

Es gibt Software, die es erlaubt, Videomaterial mit Kommentaren zu versehen, die in jedem Augenblick die Körpersprache des Sprechers beschreiben. Eine grafische Bedienoberfläche für so eine Software gibt es – die haben Studenten dieses und letztes Jahr in einem Projekt beim „Google Summer of Code“ für uns entwickelt. Beispiel: In einer bestimmten Szene nimmt von Zeitindex A bis B die sprechende Person folgende Position ein: Rechter Arm ausgestreckt, Handfläche senkrecht vom Körper weg, Kopf nach unten geneigt. Solche Annotationen sind äußerst wertvoll für Analysen darüber, wie das gesprochene Wort und die Gestik gemeinsam zur Bedeutung der Nachricht beitragen.

Google Summer of Code

Google Summer of Code (GSoC) ist eine weltweite Initiative von Google, um Studierenden an die Entwicklung quelloffener Software heranzuführen. Sowohl Studenten als auch teilnehmende Organisationen können sich für den GSoC bewerben. Während der Semesterferien erhalten Studenten finanzielle Unterstützung, um bei der „Mentor-Organisation“ ein Coding-Projekt voranzutreiben. Der GSoC findet seit 2005 statt und unterstützt jedes Jahr über 1.000 Open-Source-Projekte weltweit.

Ist das nicht extrem aufwändig, solche Daten zu sammeln? Oder geht das automatisch?

In der Tat ist die automatische Annotation sehr schwierig, fehleranfällig und rechenintensiv. Ein Teil davon, nämlich das „Alignment“ des Transkripts mit dem Video, ist mittlerweile quasi gelöst – Software kann mit ca. 90% Genauigkeit das richtige Wort im Video identifizieren. Bei der Körpersprache sieht das ganz anders aus. Viele dieser Datensätze werden heute von Studenten manuell erstellt. In Zukunft hoffen wir da mit Hilfe von Software mit weniger „Handarbeit“ auszukommen.

Ist das der Punkt, wo das Hochleistungsrechnen ins Spiel kommt?

Genau. Ein Problem, so einfach es klingt, ist schon mal die Erkennung der Position und Bewegung aller Körperteile eines Sprechers, inklusive der Hände und zumindest der groben Mimik. Ein Beispiel dafür haben wir bei der Langen Nacht mit der Software „OpenPose“ gezeigt. Mit entsprechend starker Hardware, das heißt einer modernen GPU, läuft das zwar nahezu in Echtzeit, aber die Genauigkeit ist doch sehr beschränkt. Da verliert ein Sprecher schon mal kurzzeitig eine Hand oder sogar das ganze Gesicht, wenn die Ausleuchtung sich plötzlich verschlechtert. Auf der Softwareseite ist da noch sehr viel Arbeit zu leisten, allerdings ist das nicht mein Forschungsgebiet. Ich arbeite daran, Linguisten die für ihre Forschung notwendige Infrastruktur bereit zu stellen, also zum Beispiel multimodale Korpora mit einfachem Webzugriff.

Wie könnte man denn solche Daten dann in der Forschung einsetzen, angenommen sie sind korrekt annotiert?

Man kann zum Beispiel die Frage untersuchen, ob bestimmte, sonst synonyme Wörter mit unterschiedlichen Gesten unterlegt werden. Lassen Sie mich das an einem Beispiel erläutern. Das Verb „to chuck“, das „wegschmeißen“ oder „wegwerfen“ bedeutet, und das Verb „to throw“ sind – in manchen Kontexten – synonym. Eine Hypothese ist nun, dass Sprecher, wenn sie „chuck“ sagen, häufiger eine entsprechende „Wegwerfgeste“ mit der Hand machen als bei „throw“. Diese Hypothese lässt sich mittels eines multimodalen Korpus testen: Sie geben die beiden Suchbegriffe ein und bekommen Videoschnipsel, in denen diese vorkommen. Ein weiteres hochinteressantes Gebiet ist die unterschiedliche Visualisierung von Konzepten mit Gesten abhängig vom kulturellen Hintergrund des Sprechers. Wenn zum Beispiel eine Person aus Europa oder Nordamerika über einen Zeitraum „von jetzt bis in zehn Jahren“ spricht, macht sie dabei oft eine typische Geste mit der rechten Hand, entweder von links nach rechts oder vom Körper weg nach vorne. Andere Kulturkreise, in denen Zeit anders wahrgenommen wird, nutzen zum Teil andere Gesten.

Welche Datenquellen sind denn am besten geeignet, um Korpora daraus zu erstellen?

Am besten wäre als Grundlage eine große Datenbasis mit spontaner, ungeskripteter Sprache von Menschen, die sich natürlich unterhalten, aber solches Material ist praktisch nicht zu bekommen, allein schon aus rechtlichen Gründen. Selbst bei YouTube-Videos wäre es nur dann kein Problem, wenn ich die Daten privat, für mich alleine verarbeiten würde. Firmen wie Google oder Baidu haben da einen immensen Vorteil, weil sie Zugriff auf alle Daten haben. Man kann natürlich im Labor künstlich Gesprächssituationen herbeiführen, aber diese Datenmenge ist dann doch sehr begrenzt. Unsere beste Quelle ist aktuell das amerikanische „NewsScape“-Projekt, das seit 1973 Aufzeichnungen von Fernsehsendungen macht, die im weitesten Sinne als „TV News“ durchgehen. Dazu zählen auch Talkshows wie „Ellen“.

Erfüllen Talkshows die Anforderung „ungeskriptet“?

Die billig produzierten schon (lacht). Aber im Ernst, je weniger schauspielerische Ausbildung oder Talent Leute haben, desto natürlicher kommt alles rüber, und desto wertvoller ist das Material. Gute Schauspieler – und zuweilen auch gecoachte Politiker – haben dagegen ihre Körpersprache gut unter Kontrolle.

Ist nicht alleine schon bei der Auswahl des Materials ein implizites „Vorurteil“ unvermeidlich?

Klar. Und es kommt noch viel schlimmer. Manchmal weiß man nicht, ob ein Effekt real ist oder nur durch eine unerkannte Gewichtung im Datenmaterial zustande kommt. Ich kann z.B. erkennen, dass von 2007 bis 2016 die Aussprache /ˈdeɪt̬ə/ des Worts „data“ im amerikanischen Fernsehen zunimmt, auf Kosten der Aussprache /ˈdæt̬ə/. Hier kann es sich aber auch um einen Effekt von häufig wiederholten Werbesports für Mobilfunkverträge handeln – das prüfe ich im Moment noch. Andererseits kann man mit Korpora auch sehr schön den Einfluss des politischen und gesellschaftlichen Tagesgeschehens beobachten. Seit 2015 haben Wortneuschöpfungen mit dem Wortbestandteil „Trump“ stark zugenommen: „Trumpzilla“, „trumpification“, „trumpiest“, „Trumpaloompa“, „Trumpublican“ usw.

Lassen Sie uns zum Abschluss noch einmal auf HPC zurückkommen. Welche Hardware ist für Ihre Analysen am besten geeignet? Sind die Analysen eher rechen- oder datenintensiv?

Die Menge an reinen Textdaten und der zugehörigen Analysen, mit denen ich arbeite, bewegt sich im Bereich einiger Terabytes, was heute kein Problem darstellt. Bei Audio und Video sieht das schon anders aus, aber das Problem ist da eher die Rechenzeit und der verfügbare Hauptspeicher. Die Analyse von Text und Audiodaten erfolgt bei uns momentan nahezu vollständig auf CPUs. Auf einem Cluster wie Meggie am RRZE kann ich dafür nicht alle 20 Kerne eines Knotens nutzen, obwohl der 64 GByte RAM hat. Zum Glück ist die Arbeit ziemlich gut parallelisierbar. Für die Bildverarbeitung, beispielsweise die erwähnte Gestenerkennung, und natürlich für Algorithmen, die auf Deep Learning basieren, sind Consumer-Grafikkarten im Moment die beste Wahl, wenn man auf das Preis-Leistungsverhältnis schaut.

 

Sind Sie als Linguist mit Ihren Ansätzen Vorreiter oder sind digitale Auswertungen in Ihrem Bereich inzwischen gängige Praxis und die Vorstellung der „Bücherwürmer in der Bibliothek“ antiquiert?

Im Bereich der Kombination von Text, Bild und Audio bin ich vielleicht ein Vorreiter; auch die Nutzung von HPC ist bei uns nicht verbreitet. Aber die Vorstellung der „Bücherwürmer in der Bibliothek“ ist gerade bei Forschung zur Gegenwartssprache schon lange obsolet. Natürlich brauchen wir gute Bibliotheken – der Computer ist aber auch für die meisten von uns das wichtigste Arbeitsmittel.

Sehen Sie für die Zukunft einen noch stärkeren Bedarf an Ressourcen für Ihre Analysen? Reichen die Systeme des RRZE aus?

Es ist schwer vorherzusagen, wie sich mein Bedarf in Zukunft entwickeln wird – wahrscheinlich wird die GPU-Nutzung noch wichtiger. Im Moment geht es auch weniger um die Ressourcen, sondern vor allem um die Servicequalität.

Am RRZE finde ich eine ideale Kombination von Service und Infrastruktur, und die Systeme sind ohne weitere Antragstellung zugänglich. Im Vergleich mit anderen Universitäten, auch in den USA, ist das ein echter Standortvorteil. Auch der Support durch die HPC-Gruppe ist erstklassig: Durch die Unterstützung von Singularity-Containern kann ich meine Software-Umgebung selbst aufsetzen und dann einfach am RRZE ausrollen.

Das hört man gern. Herr Uhrig, wir danken Ihnen für dieses Gespräch. 

Kontakt

Dr. Peter Uhrig
Lehrstuhl für Anglistik, insbesondere Linguistik
peter.uhrig@fau.de

Dr. Georg Hager
High Performance Computing (HPC)
Regionales Rechenzentrum Erlangen (RRZE)
georg.hager@fau.de