Grosse Daten – Grosser Scherz?

Herbert Hintergrund

In Politik berechenbar machen habe ich kurz zusammen gefasst, warum ich glaube, eine quantitative Politik sei unverzichtbar. Und angerissen, welche Grundprinzipien dabei von Bedeutung sind. Im Buch erkläre ich an mehreren Stellen, dass es um Modellierung und Simulation geht und dass hinter der Mathematik noch das Programmieren zur Verfügung steht. Auf dem generellen Prinzip beruhend, eine formale, möglichst deklarative, domänen-spezifische Sprache durch Modelle und Algorithmen zu implementieren. Auf der Suche nach berechenbarem Wissen und im Sinne des berechenbaren Denkens empfehle ich eine intelligente Kombination von Modellierung mit Methoden des Machine Learning (der Methodologie, aus Daten Modelle zu extrahieren). Vor allem zur Kalibrierung der Modelle.

The Big Joke of Big Data?

Aber, es gibt doch einen besseren Weg, sagen viele. Wir habe doch Tonnen von Daten. Grosse Daten. Und Datenwissenschaft (Data Science), welche Methoden für ihre Analyse bereit stellt. Das wirft aber ein paar gewichtige Fragen auf: Fragen, die sich nicht auf den Zugang zu solchen Daten beziehen, nicht auf Methoden, diese aufzubereiten und zu untersuchen, sondern die Möglichkeit, diese Daten in etwas zu verwandeln, das Entscheidungen und Handlungen unterstützt.

Dazu sagt Nassim N Taleb in Beware the Big Errors of Big Data :

We’re more fooled by noise than ever before. With big data, researchers have brought cherry-picking to an industry level.

Und der Grund dafür ist, dass reales Verhalten, vor allem sozio-ökonomisches, politisches, eine Vielzahl von Parametern, aber nur vergleichsweise wenige informative Datensätze her gibt. Das heisst aber, dass Abweichungen mehr auf Rauschen, als Informationen zurück zu führen sind. Dies ist der gravierende Nachteil von Großen Daten; je mehr Variablen desto mehr störende Abhängigkeiten und die mögliche Fehlinterpretation wächst nicht linear in Bezug auf die Anzahl der Parameter. Das heisst Grosse Daten können zu einem grossen Scherz verkommen.

Die Analyse von Datensätzen wird oft Data Mining genannt. Also Vorsicht, das Arbeiten in den Daten-Salzminen kann sehr ungesund und hart werden. Und das Schlimmste: falsche Prognosen sind meist verheerend.

Wir haben in drei richtig machen ein falsch gesehen, dass es schon schwierig werden kann, informative Daten, zum Kalibrieren politischer Modelle, zu erhalten. Aber mit Erfahrung kann eine System entwickelt werden, welches, iterativ, mit zusätzlichen, informativen Daten, bessere Ergebnisse liefert.

Mit Modeling and Machine Learning habe ich mich 25 Jahre beschäftig. Und viele Methoden und Technologien in Projekten verifiziert oder zurück gewiesen. Ich werde Gruppen, die Teilen von Politik mehr berechenbares Wissen unterlegen wollen, gerne unterstützen.