DebateExplorer: Unsere Datenbasis wächst – und mit ihr die Herausforderungen

Blog über unser Datenjournalismus-Projekt Debate Explorer, August 2016

So gruselig der aktuelle Stuttgart-Tatort ist, in dem eine Künstliche Intelligenz unkontrollierbar wird, so sehr wünsche ich mir, wir hätten eine Maschine, die uns ein bisschen besser versteht! Wer mit Sprachdaten arbeitet und hofft, dass uns Journalisten die Automatisierung ein wenig Arbeit abnimmt, staunt nur ob der Ankündigung der ARD: „Der Tatort HAL spielt in der nahen Zukunft, die vielleicht schneller Gegenwart ist, als wir erwarten.“ Hach, wir arbeiten an dieser nahen Zukunft, die mir gerade doch wieder etwas weiter weg erscheint.

Zu gerne würde ich unserer Maschine zurufen: Versteh mich doch, es geht um Vorratsdatenspeicherung! Aber die Wortwolke in unserer Topicsuche, die mir helfen soll, ein Thema möglichst vollständig zu finden, ist ziemlich breit geworden: in ihrem Zentrum stehen nach wie vor Begriffe wie Datenschutz und Internet. Aber seit wir unsere Daten um Spiegel-Online-Artikel erweitert haben, bekomme ich eine breite Masse an Vorschlägen, die irgendwie auch in diesen Thementopf gehören aber mit Vorratsdatenspeicherung zu tun haben. Noch immer versuche ich, unserem „Joe“, wie mein Kollege Rainer Nübel unser Tool liebevoll getauft hat, beizubringen, welches Thema ich suche. Dafür verzichten wir bewusst auf eine Suche anhand von Stichworten, um ein Thema nicht zu sehr einzugrenzen (siehe „Link zum letzten Beitrag“)

Es heißt ja immer: je mehr Daten, umso besser. Aber für uns Menschen kann das auch unübersichtlich werden. Zu unseren 60 Millionen Wörtern aus dem Bundestag (ausgedruckt wären das 200.000 A4-Seiten – aber wer druckt schon aus… ;)) kommen jetzt alle Spiegel-Online-Artikel aus dem Zeitraum von März 1997 bis November 2015: exakt 236.480 Artikel oder 137 Millionen Wörter. Und ihr könnt euch nicht vorstellen, wie endlos viele Artikel davon sich mit Datenschutz oder Internet beschäftigen, ohne das Thema Vorratsdatenspeicherung auch nur zu berühren!

Mein Ziel ist es, die Debatte um Vorratsdatenspeicherung mit Hilfe der Künstlichen Intelligenz zu analysieren: wie verlief sie über die Zeit? Meine dahinter liegende Frage ist: wie konnte es geschehen, dass die Vorratsdatenspeicherung in Deutschland wieder eingeführt wurde, während parallel vordergründig alle so empört waren über die Snowdenenthüllungen?
Letzteres kann Joe nicht beantworten, das ist der Punkt, an dem ich auf die klassische journalistische Recherche umsteigen will. Aber um dorthin zu gelangen, muss ich unserem System erst einmal verständlich machen, was ich suche.

Während ich mit der Topicsuche hadere, verkündet Rainer Nübel erste Erfolge. Er sucht nach dem Themenfeld innere Sicherheit, Terror und ähnlichem um eine alte These zu belegen, nach der manche Bedrohungslagen gezielt konstruiert werden, um eine Verschärfung der Sicherheitsgesetze politisch durchzusetzen. Allein durch das Annotieren hat er Bundestagsdebatten gefunden, die das zu belegen scheinen, für deren Aufspüren andere Kollegen nach seiner Aussage Wochen gebraucht haben. „Joe hat mich hingeführt“, jubelt er – und das ist aus seiner Sicht nur dank der Topicsuche im Gegensatz zu einer Keywordsuche möglich geworden.

André präsentiert erste Ergebnisse von ähnlichen Worten, die Joe mit „Terror“ verbindet. Darunter viel naheliegendes, aber auch ein männlicher Vorname. Huch? „Wow, Joe ist so hell!“ ruft Rainer aus. Er kennt den Namen: ein Verdächtiger in einem Terrorprozess. Andre erklärt, dass unser DeateExplorer dieses Wort offenbar für wichtig befand, da es nur in Bundestagsdebatten zum Thema Terror vorkommt – und in allen anderen nicht. Maschinelle Strategien, um die Relevanz eines Begriffes zu erkennen in Ermangelung eines menschlichen Verständnisses von Semantik.

Bei meinem Thema kommen wir zum Schluss, dass die Gefahr etwas zu übersehen nicht so groß ist, wenn ich nach Keywords suche. Und dass es anders kaum zu machen ist, passende Textstellen in den Spiegelartikeln für Joes Training zu finden. Andre verspricht, mir eine Keywordsuche für unser System zu basteln. Vorratsdatenspeicherung kommt zuverlässig als Begriff in den entsprechenden Debatten und Spiegeltexten vor, wenn es darum geht. Anders als bei „Beherbergungsgewerbe“, das Politiker gerne statt „Hotel“ verwenden, gibt es hier offenbar kaum Synonyme. Das liegt vielleicht daran, dass das Wort schon umständlich genug ist.

Ähnliche Artikel

  • DebateExplorer: Unser Baby wächstDebateExplorer: Unser Baby wächst Blog über unser Datenjournalismusprojekt DebateExplorer, Oktober 2016 Unser Baby spricht die ersten eigenen Worte! Genau genommen findet es die ersten eigenen Worte, nämlich Debatten […]
  • DebateExplorer: Jetzt will ich es wissen!DebateExplorer: Jetzt will ich es wissen! Jetzt will ich es wissen! Wir sitzen im Besprechungsraum am Institut für Maschinelle Sprachverarbeitung und schauen gebannt auf die Leinwand, auf der Textwolken auftauchen. Wir: […]
  • DebateExplorer: Unser Workshop auf der WissenswerteDebateExplorer: Unser Workshop auf der Wissenswerte Blog über unser Datenjournalismus-Projekt DebateExplorer, November 2016 Auf der Wissenswerte, der Konferenz für Wissenschaftsjournalismus, präsentieren wir in einem Werkstattgespräch […]
  • DebateExplorer: Die Mühen der EbeneDebateExplorer: Die Mühen der Ebene Ich sollte glücklich sein! Ich trainiere eine Software, die den Journalisten der Zukunft die Arbeit erleichtern soll. Die investigative Recherche am Leben erhält. Ich arbeite voll am Puls […]
  • DebateExplorer: Wie sag ichs der Maschine?DebateExplorer: Wie sag ichs der Maschine? Blog über unser Datenjournalismusprojekt DebateExlorer, Mai 2016 Und schwupp! Schon ist es noch schwieriger, die passenden Beiträge zu finden. Ich widme mich nach der Hotelsteuer dem […]
  • DebateExplorer: Wie alles anfingDebateExplorer: Wie alles anfing Im April 2015 bin ich auf einem Vortrag von Jonas Kuhn, Professor für Computerlinguistik an der Uni Stuttgart, über die automatische Analyse großer Textmengen. Er zeigt an beeindruckenden […]