Datenjournalismus

Blog über unser Datenjournalismusprojekt DebateExlorer, Mai 2016

Und schwupp! Schon ist es noch schwieriger, die passenden Beiträge zu finden. Ich widme mich nach der Hotelsteuer dem Thema Vorratsdatenspeicherung, während Computerlinguist Andre Blessing versucht, unser System mit meinen Annotationen zu trainieren und ihm erste eigene Vorschläge zur Hotelsteuer zu entlocken. Bei der Vorratsdatenspeicherung fällt mir auf, dass Hotelsteuer noch ein einfaches Thema war. Es gab ein ganz klares pro und contra: die Redner im Bundestag waren entweder dafür, dass Hotels und Gaststätten einen ermäßigten Mehrwertsteuersatz bekommen, oder sie waren dagegen. Und schon da fiel es mir immer wieder schwer, unserer „Maschine“ zu sagen, wer nun gerade dafür oder dagegen argumentiert – unter anderem wegen der perfiden Rhetorik im Bundestag. Aber da sind nun die Computerlinguisten an der Reihe um zu sehen, ob meine Annotationen dazu geführt haben, dass das System etwas gelernt hat.

Erste Ergebnisse, die das System auf der Suche nach Mustern in der gesamten Datenmassen gefunden hat – unabhängig von meiner Annotation, also durch unüberwachtes Lernen – lassen mich hoffen:

Fragen wir unsere TopicExplorer danach, welche Worte aus seiner Sicht auf der Basis aller Bundestagsdebatten in Zusammenhang mit „Mehrwertsteuersenkung“ stehen, findet er an den ersten Stellen: Beherbergungsgewerbe, Hotelgewerbe, Hotellerie, Hoteliers. Das macht – nebenbei – eines deutlich: wie sinnvoll diese Topicsuche im Vergleich zu einer klassischen Keyword- oder Volltextsuche ist: ich weiß nicht, wann ich auf die Idee gekommen wäre, nach „Beherbergungsgewerbe“ zu suchen, wenn ich eigentlich Hotels meine. Ob ich überhaupt je auf die Idee gekommen wäre. Zwangsläufig würden viele Dokumente unter der Tisch fallen. Die Topicsuche ist zwar mühsamer, aber wir hoffen, dass unsere Ergebnisse so vollständiger sind.

Die Idee zum Thema Vorratsdatenspeicherung entstand, weil ich es auffällig fand, dass diese genau nach den Snowdenenthüllungen in Deutschland wieder eingeführt wurde. In einer Zeit, in der die öffentliche Stimmung eigentlich extrem skeptisch war in Bezug auf die Speicherung von Daten für staatliche Zwecke. Wer hat das vorangetrieben? Und wieso? Wenn mir unser DebateExplorer nach erfolgreichem Training zeigt, wer im Bundestag wann wie viel und in welche Richtung argumentiert hat, will ich in die klassische Recherche einsteigen und nachfragen, konfrontieren, Auffälligkeiten benennen.

Schon beim Annotieren merke ich: hier gibt es extrem viele Schattierungen. Manche sind für eine kürzere, manche für eine längere Speicherung, manche für gar keine, manche vergleichen andere Länder – und wie immer alles herrlich verklausuliert. Wie immer wiederholen viele Politiker erstmal die Meinung der Gegenseite. „Der Datenschutz ist eine Errungenschaft des Verfassungsstaates“, beispielsweise beginnt ein Redebeitrag, der dann – wir Menschen ahnen es schon – direkt in die Richtung Vorratsdatenspeicherung ja bitte abbiegt („niemand will den Datenschutz in frage stellen, aber...“) Wie erkläre ichs der Maschine? Wird unser DebateExplorer je verstehen, dass jemand für Datenschutz argumentiert und im gleichen Atemzug für die Vorratsdatenspeicherung?

Andre und Jonas meinen: eher nein. Ich bin enttäuscht. Sie raten mir, nur das Thema an sich zu annotieren und später einen computerlinguistischen Filter darüber laufen zu lassen: ein Tool, das Emotionen erkennt und die Beiträge in pro- und contra-Meinungen sortieren kann. Das wiederum kommt mir unlogisch vor: es geht ja nicht um Emotionen, sondern um Rhetorik. Ich annotiere gegen die Empfehlung von Andre und Jonas in pro und contra. Sollte es nicht funktionieren, können wir die beide Kategorien am Ende zusammenwerfen und den Filter darüber laufen lassen. Es ist nichts verloren, es ist nur aufwendiger. Aber ich will es zumindest probieren. Schließlich heißt es immer: Maschinen verstehen manchmal mehr als wir uns vorstellen können.