DebateExplorer: Unser Baby wächst

Blog über unser Datenjournalismusprojekt DebateExplorer, Oktober 2016

Unser Baby spricht die ersten eigenen Worte! Genau genommen findet es die ersten eigenen Worte, nämlich Debatten rund um die Hotelsteuer. Und unser kleiner Joe zeigt, dass er tatsächlich erstaunlich viel verstanden hat. Mehr, als ich mir in den mühsamen Zeiten der Annotationen hätte träumen lassen angesichts der komischen Sprache der Politiker.

„Wir hätten auch eine superintelligente Suchmaschine bauen können“, sagt Andre. Aber wir haben uns für die künstliche Intelligenz entschieden, auch wenn unklar war und sicher teilweise noch ist, ob eine Maschine so komplexe Annotationen erlernen kann, wie sie sich beispielsweise aus Bundestagsdebatten ergeben. Dafür haben wir so die Chance, Debatten vollständiger zu analysieren und auch jene Textstellen zu finden, die unerwartete Begriffe verwenden und gewohnte Begriffe auslassen. An diesen Grenzen der Forschung zu arbeiten ist aufregend und ein Risiko, weil man nie weiß, ob es am Ende funktioniert. Aber heute haben wir einen Teilerfolg errungen.

Auf der Grundlage meiner Annotationen zur Hotelsteuer zeigt uns der DebateExplorer unter anderem, dass die Debatte nicht wie gedacht 2008/2009 aufkam, sondern dass das Thema bereits 1999 im Bundestag debattiert wurde – darauf wären wir mit einer rein manuellen Auswertung nicht gekommen. So weit vorne hätten wir einfach nicht angefangen zu lesen aufgrund unseres Bias, der uns annehmen ließ, dass das Thema erst 2008 relevant wurde.

André „spielt“ nun mit den Daten, wie es die Forscher nennen, indem er ausprobiert, wie der Algorithmus auf Angaben von außen reagiert. Beispielsweise lässt er ihn die Worte, die er aufgrund maschinellen Lernens als relevant für die Debatte um die Hotelsteuer einstuft, selbständig in zwei Gruppen teilen. In der einen Gruppe erscheinen Worte rund um das Thema Steuer, Mehrwertsteuer, Steuersenkung, in der anderen Gruppe Worte wie Hotels, Beherbungsgewerbe etc: unser Tool hat die beiden Facetten des Themas gut erkannt! Wenn Andre nun eingibt, dass alle künftigen Ergebnisse mindestens einen Begriff aus der ersten und einen aus der zweiten Gruppe enthalten müssen, sind die Treffer sehr gut. „Mit dieser Art zu optimieren muss man aber vorsichtig sein“, bremst Andre meine Begeisterung: es besteht die Gefahr, das System zu sehr zu beeinflussen und dadurch blinde Flecken zu entwickeln. Es ist das große Dilemma der Zusammenarbeit von Mensch und Computer: wer bekommt wie viel Einfluss – und wie entstehen die besten Ergebnisse?

Aber wir spüren auch die Grenzen unserer Daten. Andrés Visualisierung zeigt eine relativ  gleichmäßige Verteilung der Redebeiträge zur Hotelsteuer im relevanten Zeitraum 2008 und 2009. Wir wissen, dass die FDP ein großes Interesse daran hatte, die Hotelsteuer zu reduzieren, da sie eine Millionenspende von der Hotellobby erhielt. Das System im Bundestag ist nun aber so, dass vor der Entscheidung in der Regel von jeder Partei der zuständige Sprecher die Position der Partei darlegt. Zumindest das hat unser DebateExplorer gefunden, es zeigt sich in der Visualisierung deutlich. Wollten wir nun wissen, wer die Debatte vorangetrieben hat, müssten wir unsere Datenbasis um Ausschussprotokolle und ähnliches erweitern – um jene Sphäre, in der wirklich diskutiert und gerungen wird.

Ähnliche Artikel

  • DebateExplorer: Unsere Datenbasis wächst – und mit ihr die HerausforderungenDebateExplorer: Unsere Datenbasis wächst – und mit ihr die Herausforderungen Blog über unser Datenjournalismus-Projekt Debate Explorer, August 2016 So gruselig der aktuelle Stuttgart-Tatort ist, in dem eine Künstliche Intelligenz unkontrollierbar wird, so sehr […]
  • DebateExplorer: Jetzt will ich es wissen!DebateExplorer: Jetzt will ich es wissen! Jetzt will ich es wissen! Wir sitzen im Besprechungsraum am Institut für Maschinelle Sprachverarbeitung und schauen gebannt auf die Leinwand, auf der Textwolken auftauchen. Wir: […]
  • DebateExplorer: Wie sag ichs der Maschine?DebateExplorer: Wie sag ichs der Maschine? Blog über unser Datenjournalismusprojekt DebateExlorer, Mai 2016 Und schwupp! Schon ist es noch schwieriger, die passenden Beiträge zu finden. Ich widme mich nach der Hotelsteuer dem […]
  • DebateExplorer: Die Mühen der EbeneDebateExplorer: Die Mühen der Ebene Ich sollte glücklich sein! Ich trainiere eine Software, die den Journalisten der Zukunft die Arbeit erleichtern soll. Die investigative Recherche am Leben erhält. Ich arbeite voll am Puls […]
  • DebateExplorer: Unser Workshop auf der WissenswerteDebateExplorer: Unser Workshop auf der Wissenswerte Blog über unser Datenjournalismus-Projekt DebateExplorer, November 2016 Auf der Wissenswerte, der Konferenz für Wissenschaftsjournalismus, präsentieren wir in einem Werkstattgespräch […]
  • DebateExplorer: Wie alles anfingDebateExplorer: Wie alles anfing Im April 2015 bin ich auf einem Vortrag von Jonas Kuhn, Professor für Computerlinguistik an der Uni Stuttgart, über die automatische Analyse großer Textmengen. Er zeigt an beeindruckenden […]