Hintergrundinformationen zu den Tweets von @w_lv_statistics

Sonntagsfrage

Hintergrundinformationen zur Statistik „Sonntagsfrage“

Die Statistik „Sonntagsfrage“ fasst die aktuellen Wahlprognosen verschiedener Institute in einer Übersichtsgrafik zusammen. Besonders herausgestellt wird die aktuelleste Prognose. Was wird dargestellt? Woher stammen die Daten? Wie ist diese Statistik mit Hilfe der Programmiersprache R umgesetzt? Beantworte ich in diesem Blogpost:

Was wird dargestellt?

Die Fette Überschrift verrät schon das Institut, welches die neuste Umfrage veröffentlicht hat. Darüber steht die Wahl, um die es geht. In dem Bild (s.u.) ist es die Bundestagswahl. In der letzten Zeile des Überschriftblocks steht das Veröffentlichungsdatum der neusten Umfrage. Die Zahlen unterhalb der Parteinamen sind die Daten aus der neusten Umfrage. Das Balkendiagramm zeigt nach Parteien sortiert die Werte mehrerer Institute. Von links nach rechts sind die Werte der Institute Allensbach, Emnid, Forsa, Forschungsgruppe Wahlen, GMS, Infratestdimap und INSA dargestellt. Der Balken des Institutes mit der neusten Umfrage ist dunkeler als die anderen Balken. Die durchgezogene Linie ist der Mittelwert aus den aktuellsten Umfragen aller Institute. Die gestrichelte Linie zeigt das Stimmergebniss bei der letzten Bundestagswahl.

Woher stammen die Daten?

Die Daten kommen im Normalfall von der Webseite wahlrecht.de. Diese Seite bietet eine tolle Übersicht über die aktuellen Prognosen. Sobald wahlrecht.de die Übersichtsseite anpasst, weil eine neue Umfrage veröffentlicht wurde, erstellt welovestatistics.com automatisch eine neue Übersichtsgrafik und postet sie automatisch auf Twitter. Von Zeit zu Zeit kommt es jedoch zu einer Verzögerung zwischen der Veröffentlichung einer Umfrage von Seiten des Instituts und der Veröffentlichung dieser Umfrage auf wahlrecht.de. In diesen Fällen kann welovestatistics.com auch direkt die neusten Daten in die Übersichtsgrafik aufnehmen und die Grafik automatisch bei Twitter posten.

Wie ist diese Statistik mit Hilfe der Programmiersprache „R“ umgesetzt?

Die Übersichtgrafik ist, wie alle Grafiken und Statistiken von welovestatistics.com, mit R programmiert worden. Hier soll die programmatische Verwirklichung nur kurz skizziert werden. Da das Programm ehr „ergebnisorientiert“ und daher oft „quick and dirty“ 😉 geschrieben ist, wird an dieser Stelle darauf verzichtet den Code vollständig zu veröffentlichen. In einer Skizze soll hier trotzdem dargelegt werden, wie die Statistik entstanden ist. Wer sich für den Code interessiert kann mir gerne eine Email (admin@welovestatistics.com) schreiben. Die regelmäßige Überprüfung der Webseite wahlrecht.de erfolgt mit Hilfe der Packages „taskscheduleR“ und „RCurl“. Mit dem Befehl taskscheduler_create() wird festgelegt, dass die Webseite jede Minute überprüft wird. Mit dem Befehl getURL() wird die Webseite ausgelesen. Die Daten auf der Seite werden mit Hilfe des „htmltab“ Package und des htmltab()-Befehls in einen R data.frame umgewandelt.  Sobald es eine neue Umfrage gibt, wird zunächst per png() Funktion die png-Datei ertstellt. Die eigentliche Graik ist ein einfacher barplot(). Die Linien, die den Durchschnitt und das Ergebnis der letzten Bundestagswahl anzeigen, sind mit der Funktion lines() erzeugt.  Die Bilddatei wird anschließend vollautomatisch bei Twitter mit Hilfe des „twitteR“ Paketes und der Befehle setup_twitter_oauth() und tweet() gepostet. Auch der Text des Tweets erstellt sich automatisch auf Grundlage der Daten. Da das automatische Posten zuletzt in die Kritik geraten ist, werden alle automatischen Posts von mir eindeutig mit den Buchstaben „BOT“ gekennzeichnet. Solange es noch keine einheitliche Kennzeichnung für automatische Tweets gibt, werde ich so verfahren.

Koalitionsrechner

Hintergrundinformationen zur Statistik „Koalitionsrechner“ Reicht es noch für die GroKo oder hat r2g eine Mehrheit? Diese oder ähnliche Fragen stellen sich Viele, […]