DebateExplorer: Unser Workshop auf der Wissenswerte

Blog über unser Datenjournalismus-Projekt DebateExplorer, November 2016

Auf der Wissenswerte, der Konferenz für Wissenschaftsjournalismus, präsentieren wir in einem Werkstattgespräch am Dienstag, 29.11., erste Ergebnisse unseres DebateExplorers: Können Maschinen Semantik verstehen, können sie sogar angesichts der verklausulierten Sprache der Politiker Muster in Bundestagsdebatten finden und uns Journalisten auf Auffälligkeiten stoßen, die wir ohne maschinelle Unterstützung nicht gefunden hätten? Unser Projekt auf der Basis der Förderung der Volkswagenstiftung im Projekt „Wissenschaft und Datenjournalismus“ erkundet seit Januar 2016 die Grenzen der Wissenschaft und versucht, sie zu verschieben. Wir wollen mit euch unsere Erfolge und die künftigen Herausforderungen diskutieren.

Unser Tool soll gerade in Zeiten knapper Mittel im Journalismus dafür sorgen, dass investigative Recherche nicht nur den großen Verlagen vorbehalten bleibt oder angesichts des Aufwands ganz ausstirbt. Wir nutzen öffentlich zugängliche Texte wie Bundestagsdebatten, Interviews und Artikel, um mittels automatischer Texterkennung aufzudecken, wie Debatten beeinflusst werden. Die Herausforderung dabei: die Algorithmen sollen nicht nur wortgleiche Passagen finden, sondern auch inhaltliche Gemeinsamkeiten, die verschieden formuliert sind. Dafür trainieren wir sie gemeinsam: JournalistInnen und ComputerlinguistInnen. Weiterlesen

DebateExplorer: Unser Baby wächst

Blog über unser Datenjournalismusprojekt DebateExplorer, Oktober 2016

Unser Baby spricht die ersten eigenen Worte! Genau genommen findet es die ersten eigenen Worte, nämlich Debatten rund um die Hotelsteuer. Und unser kleiner Joe zeigt, dass er tatsächlich erstaunlich viel verstanden hat. Mehr, als ich mir in den mühsamen Zeiten der Annotationen hätte träumen lassen angesichts der komischen Sprache der Politiker.

„Wir hätten auch eine superintelligente Suchmaschine bauen können“, sagt Andre. Aber wir haben uns für die künstliche Intelligenz entschieden, auch wenn unklar war und sicher teilweise noch ist, ob eine Maschine so komplexe Annotationen erlernen kann, wie sie sich beispielsweise aus Bundestagsdebatten ergeben. Dafür haben wir so die Chance, Debatten vollständiger zu analysieren und auch jene Textstellen zu finden, die unerwartete Begriffe verwenden und gewohnte Begriffe auslassen. An diesen Grenzen der Forschung zu arbeiten ist aufregend und ein Risiko, weil man nie weiß, ob es am Ende funktioniert. Aber heute haben wir einen Teilerfolg errungen.
Weiterlesen

DebateExplorer: Unsere Datenbasis wächst – und mit ihr die Herausforderungen

Blog über unser Datenjournalismus-Projekt Debate Explorer, August 2016

So gruselig der aktuelle Stuttgart-Tatort ist, in dem eine Künstliche Intelligenz unkontrollierbar wird, so sehr wünsche ich mir, wir hätten eine Maschine, die uns ein bisschen besser versteht! Wer mit Sprachdaten arbeitet und hofft, dass uns Journalisten die Automatisierung ein wenig Arbeit abnimmt, staunt nur ob der Ankündigung der ARD: „Der Tatort HAL spielt in der nahen Zukunft, die vielleicht schneller Gegenwart ist, als wir erwarten.“ Hach, wir arbeiten an dieser nahen Zukunft, die mir gerade doch wieder etwas weiter weg erscheint.

Zu gerne würde ich unserer Maschine zurufen: Versteh mich doch, es geht um Vorratsdatenspeicherung! Aber die Wortwolke in unserer Topicsuche, die mir helfen soll, ein Thema möglichst vollständig zu finden, ist ziemlich breit geworden: in ihrem Zentrum stehen nach wie vor Begriffe wie Datenschutz und Internet. Aber seit wir unsere Daten um Spiegel-Online-Artikel erweitert haben, bekomme ich eine breite Masse an Vorschlägen, die irgendwie auch in diesen Thementopf gehören aber mit Vorratsdatenspeicherung zu tun haben. Weiterlesen

DebateExplorer: Die Mühen der Ebene

Ich sollte glücklich sein! Ich trainiere eine Software, die den Journalisten der Zukunft die Arbeit erleichtern soll. Die investigative Recherche am Leben erhält. Ich arbeite voll am Puls der Zeit – wer würde sich nicht wünschen, auch mal eine künstliche Intelligenz mit eigenem Hirnschmalz anzureichern?

Aber manchmal holen mich die Mühen der Ebene ein: Das Bürokratendeutsch der Politiker beispielsweise. Wird eine Maschine je verstehen können, was diese vor lauter Rhetorik wirklich meinen? Sie wiederholen die Argumente der Gegenseite, bevor sie verklausuliert zu ihren eigenen Standpunkten kommen, sie verwenden ohne Ende doppelte Verneinungen, Schachtelsätze – werden meine Annotationen dem Algorithmus wirklich helfen? Weiterlesen

DebateExplorer: Jetzt will ich es wissen!

Jetzt will ich es wissen! Wir sitzen im Besprechungsraum am Institut für Maschinelle Sprachverarbeitung und schauen gebannt auf die Leinwand, auf der Textwolken auftauchen. Wir: Stern-Investigativ-Reporter Rainer Nübel, die Computerlinguisten Andre Blessing und Jonas Kuhn und ich. Werden diese Wolken uns helfen können, Lobbyisten zu enttarnen?

Seit Jahren schreibe ich über Automatisierung, darüber, wie Maschinen uns Arbeit abnehmen können, über künstliche Intelligenz, lernende Algorithmen  – und wie diese zu guten und richtigen Ergebnisse kommen, die uns weiter bringen. Eines hat sich durch viele Recherchen durchgezogen: die Erkenntnis, dass die Kombination aus Mensch und Maschine ein Erfolgsmodell ist: Maschinen sind gut darin, Muster in großen Datenmengen zu erkennen. Menschen sind gut darin zu erkennen, ob es sich um sinnvolle Muster handelt und können den Maschinen mit einigen wenigen Regeln die richtige Richtung weisen. Mit unserem Datenjournalismus-Projekt Debate Explorer habe ich erstmals die Möglichkeit, das in der Praxis zu verfolgen, worüber ich bisher nur aus der externen Perspektive geschrieben habe: selbst eine künstliche Intelligenz mit zu trainieren, die uns Journalisten in Zukunft die Fleißarbeit abnehmen könnte. Weiterlesen

DebateExplorer: Wie alles anfing

Im April 2015 bin ich auf einem Vortrag von Jonas Kuhn, Professor für Computerlinguistik an der Uni Stuttgart, über die automatische Analyse großer Textmengen. Er zeigt an beeindruckenden und einleuchtenden Beispielen, dass jene Algorithmen erfolgreich sind, die teilweise regelbasiert und teilweise selbst lernend nach Mustern suchen. Wenn Maschinen Sprache rein nach statistischen Verfahren lernen, kommen sie zwar recht weit, aber irgendwann stoßen sie an ihre Grenzen: So wird der englische Satz „Producing fluent German tends to be quite hard.“ (Es scheint schwierig zu sein, fließendes Deutsch zu erzeugen)  bei Googletranslate zu dieser Zeit beispielsweise übersetzt mit „Herstellung fließend Deutsch neigt dazu, ziemlich hart.“ Also ziemlicher Buchstabenmüll.

Wenn Menschen hingegen ein paar Regeln hinzugeben, sind die Maschinen erfolgreicher, erklärt Jonas Kuhn auf seinem Vortrag. Die Herausforderung ist, die richtige Mischung herauszufinden: Die Maschine nicht zu sehr einzuschränken, aber ihr auch nicht zu große Freiheiten zu lassen, die sie auf die falsche Spur führt. Nach dem Vortrag frage ich Jonas Kuhn, ob wir nicht ein gemeinsames Projekt starten könnten: schon lange frage ich mich, inwiefern Lobbyisten Politiker beeinflussen. Weiterlesen

Datenjournalismus-Projekt DebateExplorer startet

Unser Projekt DebateExplorer hat die Förderzusage der Volkswagenstiftung bekommen! Die Stuttgarter Computerlinguisten Jonas Kuhn, Andre Blessing und ich werden im Rahmen der Ausschreibung „Wissenschaft und Datenjournalismus“ in den nächsten Monaten Tools entwickeln, die via Textmining die Beeinflussung von Debatten untersuchen. Einige dieser Tools sollen nach Pro­jek­ten­de allen in­ter­es­sier­ten Jour­na­lis­ten zur Ver­fü­gung stehen. Weiterlesen

Wie wird aus Datenjournalismus mehr als Teenager-Sex?

Der Stand des deutschen Datenjournalismus nach der Konferenz Datenlabor 2015 und was wir tun müssen, wenn wir unsere Möglichkeiten nicht länger verschenken wollen.

Datenjournalismus ist wie Teenager-Sex: alle reden davon. Keiner weiß so richtig, wie es geht. Jeder denkt, alle anderen tun es. Und deshalb behaupten alle, dass sie es tun. Diese Sätze  habe ich von dem US-Psychologen Dan Ariely geklaut – und auch leicht abgewandelt. Es ist mir kürzlich bei einem wissenschaftlichen Vortrag über Bigdata über den Weg gelaufen. Und das, was im wissenschaftlichen Zusammenhang Bigdata ist, erscheint mir im Journalismus derzeit der Datenjournalismus. Der Begriff wird inflationär verwendet, und jede Redaktion, die etwas auf sich hält, unterhält wenigstens ein Datenjournalismus-Team.

Was vor einigen Jahren mit einer Debatte über neue „Storytelling“-Formate im Netz begann, einer Debatte, der man auf keiner Journalistenkonferenz entkam (und die im übrigen den Begriff Storytelling – eine eigene, fabelhafte, viel zu seltene journalistische Stilform – verhunzt), heißt heute Datenjournalismus. Und hej, wenn die ganze Welt von Bigdata redet, wenn Daten wahlweise das Gold oder das Öl der Zukunft sind – dann nichts wie mitgemischt. Irgendwie wollen wir Journalisten ja auch nichts verpassen. Weiterlesen