Hintergrundinformationen zu den Tweets von @w_lv_statistics

Koalitionsrechner

Hintergrundinformationen zur Statistik „Koalitionsrechner“

Reicht es noch für die GroKo oder hat r2g eine Mehrheit? Diese oder ähnliche Fragen stellen sich Viele, sobald eine neue Wahlumfrage veröffentlicht wird. Wem, wie mich, seine Kopfrechenfaulheit an der Beantwortung dieser Frage hindert, hilft die Grafik „Koalitionsrechner“. Was wird dargestellt? Woher stammen die Daten? Wie ist diese Statistik mit Hilfe der Programmiersprache R umgesetzt? Beantworte ich in diesem Blogpost:

Was wird dargestellt?

Die Grafik zeigt auf einen Blick, welche Koalitionen wahrscheinlich möglich sind und welche nicht. Grundlage für die Grafik ist die neuste Meinungsumfrage. Das veröffentlichende Institut wird in der zweiten Zeile des Überschriftblocks genannt. In der dritten Zeile des Überschriftblocks steht das Veröffentlichungsdatum der Umfrage. Die zugrundeliegenden Rechnungen für diese Grafik sind denkbar einfach. Die Balken zeigen die Summen der Prozentpunkte für ausgesuchte Koalitionen. Die schwarze Line zeigt die absolute Mehrheit. Durch die 5%-Hürde liegt die Grenze zur absoluten Mehrheit im Normalfall deutlich unterhalb von 50%. Die absolute Mehrheit wird bestimmt durch die halbe Summe der Prozentpunkte aller Parteien oberhalb der 5%-Hürde. Je nach Wahlrecht kann es durch Überhangmandate zu Abweichungen von dieser Regel kommen. Allerdings werden durch Ausgleichsmandate in vielen (allen?) Parlamenten die Abweichungen durch die Überhangmandate wieder ausgeglichen. Zweitens liegen zwischen Wahlergebnis und Umfragen so deutliche Abweichungen, dass diese Übersicht sowieso bestenfalls eine grobe Orientierungshilfe bietet. Als Daumenregel gilt, je mehr Prozentpunkte eine mögliche Koalition oberhalb der schwarzen Linie liegt, desto wahrscheinlicher ist eine Mehrheit für diese Koalition. Nur die 5%-Hürde steht dieser einfachen Regel im Wege.

Woher stammen die Daten?

Die Daten kommen im Normalfall von der Webseite wahlrecht.de. Diese Seite bietet eine tolle Übersicht über die aktuellen Prognosen. Sobald wahlrecht.de die Übersichtsseite anpasst, weil eine neue Umfrage veröffentlicht wurde, erstellt welovestatistics.com automatisch den neuen Koalitionsrechner und postet ihn automatisch auf Twitter. Von Zeit zu Zeit kommt es jedoch zu einer Verzögerung zwischen der Veröffentlichung einer Umfrage von Seiten des Instituts und der Veröffentlichung dieser Umfrage auf wahlrecht.de. In diesen Fällen kann welovestatistics.com auch direkt die neusten Daten in den Koalitionsrechner aufnehmen und die Grafik automatisch bei Twitter posten.

Wie ist diese Statistik mit Hilfe der Programmiersprache „R“ umgesetzt?

Der Koalitionsrechner ist, wie alle Grafiken und Statistiken von welovestatistics.com, mit R programmiert worden. Hier soll die programmatische Verwirklichung nur kurz skizziert werden. Da das Programm ehr „ergebnisorientirt“ und daher oft „quick and dirty“ 😉 geschrieben ist, wird an dieser Stelle darauf verzichtet den Code vollständig zu veröffentlichen. In einer Skizze soll hier trotzdem dargelegt werden, wie die Statistik entstanden ist. Wer sich für den Code interessiert kann mir gerne eine Email (admin@welovestatistics.com) schreiben. Die regelmäßige Überprüfung der Webseite wahlrecht.de erfolgt mit Hilfe der Packages „taskscheduleR“ und „RCurl“. Mit dem Befehl taskscheduler_create() wird festgelegt, dass die Webseite jede Minute überprüft wird. Mit dem Befehl getURL() wird die Webseite ausgelesen. Die Daten auf der Seite werden mit Hilfe des „htmltab“ Package und des htmltab()-Befehls in einen R data.frame umgewandelt. Sobald es eine neue Umfrage gibt, wird zunächst per png() Funktion die png-Datei ertstellt. Die eigentliche Grafik ist ein einfacher barplot() mit der Option beside=FALSE. Die Linie, die die absolute Mehrhehit anzeigt, ist mit der Funktion lines() erzeugt. Die Bilddatei wird anschließend vollautomatisch bei Twitter mit Hilfe des „twitteR“ Packetes und der Befehle setup_twitter_oauth() und tweet() gepostet. Auch der Text des Tweets erstellt sich automatisch auf Grundlage der Daten. Da das automatische Posten zuletzt in die Kritik geraten ist, werden alle automatischen Posts von mir eindeutig mit den Buchstaben „BOT“ gekennzeichnet. Solange es noch keine einheitliche Kennzeichnung für automatische Tweets gibt, werde ich so verfahren.

Sonntagsfrage

Hintergrundinformationen zur Statistik „Sonntagsfrage“ Die Statistik „Sonntagsfrage“ fasst die aktuellen Wahlprognosen verschiedener Institute in einer Übersichtsgrafik zusammen. Besonders herausgestellt wird die aktuelleste […]