Rechnen mit Civey: Neuer Stern am Himmel des Umfrage-Hokuspokus

Sie kennen das als alter Hase des Mainstream-Medien-Surfens wahrscheinlich: Die Befragung von Civey im Text von Welt oder Focus, an der man teilnehmen soll (und anschließend aufgefordert wird, sich registrieren zu lassen) und bei der es einen eklatanten Unterschied zwischen dem Ergebnis, das auf Rohdaten basiert, und dem, das “gewichtet” ist, also repräsentativ sein soll, gibt.

Dazu hat uns die folgende Frage eines Lesers erreicht:

“Liebes ScienceFiles Team,

beim Lesen diverser online-Zeitungen (Focus, Welt) bin ich zum wiederholten Male auf eine “Merkwürdigkeit” gestoßen. Im Fließtext findet man dort häufiger ein Fenster, dass zur Teilnahme an einer Umfrage einlädt. Der Dienstleister heißt Civey. Die Merkwürdigkeit besteht darin, dass ein eklatanter Unterschied zwischen den Rohdaten und den (standardmäßig angezeigten) “Repräsentativen” Ergebnissen herrscht. Jedes, wirklich jedes Mal werden die Rohdaten so gewichtet, dass die Repräsentativdaten die Ergebnisse der Rohdaten sozusagen “umdrehen” und somit ein für die Regierung günstiges Ergebnis produzieren.

Beispiel: “Welchen Kurs sollte die CDU Ihrer Meinung nach einschlagen?” Rohdaten -> “Repräsentativdaten” Deutlich links-liberaler: 5,0% -> 11,8% eher links-liberaler: 6,0% -> 14,4% gleich: 7,5% -> 23,3% eher konservativer: 25,0% -> 27,7% deutlich konservativer: 56,4% -> 22,8% (5105 Befragte)

Meine Frage: Gibt es irgendeine Möglichkeit mathematisch nachzuweisen, ob diese Form der Gewichtung unseriös bzw. unwissenschaftlich ist? Wenn ja wäre das doch einen Blogbeitrag wert?”



Um die Frage zu beantworten, müssen wir etwas ausholen.

Normalerweise behaupten Umfrageinstitute ihre Umfrageergebnisse seien repräsentativ, weil sie durch eine Zufallsauswahl der Befragten sichergestellt haben wollen, dass jedes Mitglied der Grundgesamtheit (z.B. alle deutschen Wähler) die SELBE Chance hatte, in die Auswahl zu gelangen. Das ist offenkundiger Humbug, einfach deshalb, weil sich die Realität nicht im Einklang mit mathematischen Modellen bewegt und sich beim Versuch, die Stichprobe der Bevölkerung, die man gezogen hat, auszuschöpfen, die vielfältigsten Probleme einstellen. Wir haben in diesem Post die entsprechenden Probleme zusammengestellt, die nach unserer Ansicht sicherstellen, dass es keine repräsentativen Ergebnisse, egal, was Infratest Dimap, Forschungsgruppe Wahlen, Emnid usw. behaupten, geben kann.

Nun ist die Repräsentativität der Ergebnisse aber die wichtigste Zutat im Angebot von Meinungsforschungsinstituten. Können Letztere nicht mehr behaupten, ihre Ergebnisse wiesen über die Anzahl von vielleicht 1000 Befragten, die an einer Umfrage teilgenommen haben, hinaus, könnten auf die deutsche Gesellschaft hochgerechnet werden, dann geht viel vom Fake-Appeal, den Umfragen immer noch haben, verloren. Hinzukommt, dass Umfragen zu einem Mittel im politischen Kampf, im Meinungskampf, wie Landrichter Pfotenhauer es genannt hat, geworden sind. Parteien legitimieren ihre wirren Ideen mit angeblich repräsentativen Befragungen, die gezeigt haben sollen, was die jeweiligen Parteien fordern. Lobbyisten, die z.B. Vogelschredder verkaufen wollen, um damit unzuverlässig Storm herzustellen, benutzen angeblich repräsentative Umfrageergebnisse um zu zeigen, wie weit angeblich die Akzeptanz ihrer ineffizienten Technologie in der Gesellschaft verbreitet ist, und nichtzuletzt werden vermeintlich repräsentative Umfrageergebnisse dazu benutzt, die Menge der für die nächsten Wahlen aussichtsreichen Politiker zu begrenzen. Wir haben das vor einiger Zeit beschrieben.

Das alles ist Humbug.
Das haben wir vor Jahren gesagt. Wir sagen es weiter. Es ist eine Form der Propaganda, die dem Propagandisten viele Möglichkeiten an die Hand gibt, über die Auswahl von Befragten, die Formulierung von Fragen, nachträgliche Gewichtung und dergleichen mehr, genau die Ergebnisse zu erzielen, die er von Anfang an gewollt hat. Ein besonders gutes Beispiel dafür, wie Umfragen zur Legitimation politischer Akteure, in diesem Fall der EU, eingesetzt werden, ist der Eurobarometer, für den durch eine Indiskretion bekannt wurde, wie verheerend schlecht seine Ausschöpfungsquote ist. Die Ausschöpfungsquote beschreibt, wie viele Interviews aus einer Liste von vorgesehenen Interviews realisiert werden können. Je schlechter die Ausschöpfungsquote, desto mehr muss nachträglich zurechtgebogen werden, an der Behauptung, die Ergebnisse seien repräsentativ ändert das jedoch nichts.



Nun zu Civey.

Civey ist ein neuer Spieler im Konzert der Umfrageinstitute und, bemerkenswerter Weise sind die Mannen bei Civey derselben Ansicht wie wir, nämlich dass es nicht möglich ist, mit Umfragen ein repräsentatives Abbild für die Grundgesamtheit der deutschen Wähler, deutschen Erwachsenen usw. zu gewinnen. Sie machen aber, im Gegensatz zu uns, eine Einschränkung: Mit herkömmlichen Methoden sei das nicht möglich, so steht es auf der Seite von Civey. Und auf dieser Basis versuchen die umfangreich Geförderten von Civey dann ihre eigene Schlangentinktur zu verkaufen. Damit sind wir bei der Frage unseres Lesers angekommen.

Die Antwort auf die Frage, warum sich die Ergebnisse auf Basis der Rohdaten so stark von angeblich repräsentativen Ergebnissen unterscheiden, lautet: Gewichtung.

Gleich vorweg: Gewichtung ist ein Einfallstor für Manipulation aller Art. Wir wollen dennoch nicht gleich mit der Tür ins Haus fallen und haben deshalb nachgelesen, wie die Gewichtung bei Civey aussieht.

Dazu ist es sinnvoll, das Problem, vor dem Civey steht, zu beschreiben. Repräsentativität ist eine Funktion der Auswahl der Elemente einer Stichprobe, sie ist also eine Eigenschaft der Stichprobe, die von der AuswahlMETHODE abhängt. Nun sind wir und Civey der Ansicht, dass keine Auswahl der Welt eine repräsentative Stichprobe für große Grundgesamtheiten, wie sie z.B. die deutsche Wahlbevölkerung darstellt, herstellen kann. Im Gegensatz zu uns ist man bei Civey jedoch der Ansicht, dass man nachträglich so an den Daten herumfuhrwerken könne, dass vollkommener Datenmüll, der nicht einmal entfernt an ein repräsentatives Abbild der Bevölkerung erinnert, zu einem solchen gemacht werden könne. Die Methode, die dazu zum Einsatz kommt, ist eine hausbackene Methode, dieselbe, die auch die traditionellen Umfrageinstitute einsetzen, um ihre Stichproben, die sie zufällig gezogen haben wollen, die aber dennoch in wichtigen Parametern von der Grundgesamtheit abweichen, nachträglich zu “verbessern”: Die Gewichtung der Daten.

Dass bei Civey letztlich genau das gemacht wird, was bei allen Umfrageinstituten gemacht wird, kann Civey natürlich nicht so offen vertreten, sonst fällt die Start-Up und sonstige Förderung vermutlich aus. Deshalb wird das ganze etwas ausgepoppt und als Non-Probability Sample bezeichnet.



Ein Non-Probability Sample ist eine Stichprobe, die irgendwie zustande gekommen ist und bei deren Ziehung keine Zufallsauswahl stattgefunden hat. Im Gegenteil, ein non-probability Sample, der im Internet gezogen wird, zeichnet sich durch eine hohe Selektivität aus, was man leicht nachvollziehen kann, wenn man sich überlegt, wer Spiegel, ZEIT, Welt liest und wer vor allem nicht. Wir sind sicher, dass die Daten, die Civey letztlich aus seinen angeblich 25.000 URLs, über die Befragungen durchgeführt werden, gewinnt, hochgradig verzerrt, und zwar systematisch verzerrt sind, weil sich im Internet nun einmal systematisch bestimmte Personen seltener finden lassen als in der Normalbevölkerung und diejenigen, die an einer URL von Civey ankommen, sind vermutlich noch einmal systematisch verzerrt – abgesehen davon gibt es keinerlei Möglichkeit, Doppel-, Dreifach und Vierfachzählungen ein und derselben Internetnutzer festzustellen. Kurz: Wir halten Civeys Daten für flawed, in der Verteilung so schief wie sie nur sein können.

Aber, so sagen uns die Mannen von Civey: Das sei kein Problem, weil “non-probability samples” nachträglich gewichtet werden können, um dann Ergebnisse zu produzieren, die den “wahren Wert” eine ideele Größe, die es nicht gibt, abbilden sollen. Und die Art und Weise, in der Civey dieses Kunststück erreichen will, ist, wie bereits angesprochen, ein so alter Hut, dass man sich gar nicht traut, in aufzusetzen, vor Angst, er könnte auseinanderfallen:

“In einem vollautomatisierten Schritt werden die in der Stichprobe enthaltenen Stimmen nach weiteren Soziodemografika wie beispielsweise Alter, Geschlecht, Familienstand, Bevölkerungsdichte, Kaufkraft und Parteipräferenz nachgewichtet, um etwaig verbliebene Verzerrungen zu korrigieren.

Civey gewichtet hierbei in der Regel gegen offizielle Bevölkerungsdaten. Diese kommen vom statistischen Bundesamt oder dem Bundeswahlleiter. Da leider nicht alle Bevölkerungsdaten gemeinsam vorliegen, sondern häufig lediglich Informationen über die Randverteilung bekannt sind, verwendet Civey in vielen Fällen die Gewichtung über die Randverteilungen (Raking). Liegen gemeinsame Verteilungen vor oder können diese ermittelt werden, bevorzugt Civey Poststratifizierung als Gewichtungsmethode.”

Was man sich unter einer Gewichtung vorzustellen hat, das haben wir hier schon ausführlich erklärt. Für diesen Post mag es genügen, wenn wir feststellen, dass eine Gewichtung damit einhergeht, unterschiedlichen Befragten ein unterschiedliches Gewicht in der Befragung zu geben.

Ein Beispiel:
Singlehaushalte machen in Deutschland 42% der Haushalte aus. Nehmen wir an, in den Daten von Civey haben Singlehaushalte einen Anteil von 80%. Ihr Anteil muss somit herunter gewichtet werden. Gewichtung ist ein denkbar einfaches statistisches Verfahren. In diesem Fall würden alle, die von sich sagen, sie leben in einem Singlehaushalt, mit dem Faktor 0,525 (42/80) gewichtet werden. Nehmen wir weiter an, in den Daten von Civey finden sich nur 6% Befragte im Alter von 25 bis 39 Jahre. Der Anteil der 25 bis 39jährigen in der deutschen Gesellschaft liegt bei ungefähr 16%, ergo muss die entsprechende Altersgruppe in der Stichprobe von Civey höher gewichtet werden, weil sie unterrepräsentiert ist, der Faktor, der dazu notwendig ist: 2,7 (16/6). Mit diesem Faktor wird der jeweilige Befragte “multipliziert”, d.h. er geht in Auswertungen 2,7Mal ein.

Was wir bislang beschrieben haben, wird in dem Zitat von Civey als “Gewichtung über die Randverteilungen” bezeichnet. Ein alter Hut, den es in der Umfrageforschung seit Jahrzehnten gibt. Die schönste Anekdote, die wir in diesem Zusammenhang kennen, ist das Euro-Weight im Eurobarometer, das von 500 Luxemburgern noch 15 übriglässt. Manche schaffen es, sich an solchem Humbug zu berauschen und sich einzureden, sie hätten durch derartige Tricks nun sichergestellt, dass ihre Ergebnisse für die gesamte EU repräsentativ sind…

Die Poststratifizierung, ein Ehrfurcht fordernder Begriff, hinter dem sich – wie so oft – eine Grundrechenart verbirgt, funktioniert dann wie folgt. Ein Befragter, der Single ist und in die Altersgruppe der 25 bis 39jährigen fällt, wird nunmehr doppelt (bei uns, multiple bei Civey) gewichtet – poststratifiziert: 0,525 * 2,7 = 1,4175, er ist nun das 1,4fache im Vergleich zu allen Befragten, die seine Merkmalskombination nicht teilen, wert. Wie weit man mit solchem Humbug kommt, ist eine Frage, über die die Verfechter solcher Rechentricks lange reden können.

Was relevanter als dieses Geschwätz ist, ist die Tatsache, dass man über diese Art von Gewichtung von jedem Schrott, der über Rohdaten angesammelt wird, behaupten kann, er stelle eine repräsentative, nachgewichtete Datenbasis dar, aus der weitreichende Schlüsse gezogen werden könnten. Dem ist nicht so. Schrott bleibt Schrott und dass man ihn nachträglich gewichten muss, zeigt, dass es sich um Schrott gehandelt hat. Hinzukommt, dass derartige Gewichtungsmethoden natürlich viel Raum für Manipulation bieten. Es ist problemlos möglich, die Antworten, die nicht in die gewünschte Richtung gehen, herunter- und die, die das gewünschte Ergebnis zeigen, hochzugewichten, um das Ergebnis zu erreichen, das man erreichen will. Ob dies bei Civey geschieht, das wissen wir nicht, weil uns die Art und Weise der Datentransformation, die tatsächlichen Gewichtungen, die vorgenommen werden, nicht bekannt sind. Um diesen Gewichtungs-Zinnober aufziehen zu können, müssen die relevanten Informationen für die Befragten natürlich vorhanden sein. Das ist ein weiterer Grund, warum bei Civey die Rohdaten zuweilen so weit von den angeblich repräsentativen Ergebnisse abweichen: Wer nicht bei Civey registriert ist, fällt aus der Berechung heraus, denn für ihn liegen keinerlei Information vor, die für die Gewichtung notwendig sind.



Was wir vor diesem Hintergrund mit einiger Sicherheit und als Faustformel für unsere Leser sagen können, ist Folgendes:

Je größer die Abweichung der Ergebnisse auf Basis der Rohdaten von den Ergebnissen, die als repräsentativ bezeichnet werden, ist, desto höher ist die Wahrscheinlichkeit einer Manipulation und desto geringer ist die Wahrscheinlichkeit, dass repräsentative Ergebnisse vorliegen.

Man kann sich das so ungefähr vorstellen wie Darts mit verbundenen Augen zu werfen. Man wirft. Daneben. Ein Beobachter sagt: Weiter links. Man wirft. Daneben. Ein Beobachter sagt, noch weiter links. Man wirft und trifft die fünf. Und diese Fünf wird dann als repräsentativer Wurf verkauft.

Es ist und bleibt eben Humbug.

Aber Humbug, der sich rechnet und darüber hinaus nicht Gefahr läuft, an den Tatsachen zu scheitern. Denn um ein angeblich repräsentatives Umfrageergebnis als Blödsinn bloßstellen zu können, müsste man z.B. eine Vollerhebung durchführen und z.B. alle Deutschen, die mindestens 18 Jahre alt sind, befragen. Derartige Volksbefragungen führt natürlich niemand durch, es geht ja beim Umfrage-Hokuspokus gerade darum, den Status quo zu legitimieren und solche Volksbefragungen zu vermeiden. Die einzige Situation, in der der ganze Hokuspokus in Gefahr ist, aufzufliegen, findet sich an Wahlabenden mit Hochrechnungen und Exit Poll-Befragungen. Und es ist sicher kein Zufall, dass in diesen Fällen ganz andere Verfahren zum Einsatz kommen als dann, wenn es darum geht, Frau Merkel zum “beliebtesten Politiker” hochzujubeln.




Derartige Beiträge finden Sie nur bei uns!
ScienceFiles ist ein privates Blog, das u.a. auf Grundlage der Spenden unserer Leser betrieben wird.
Unterstützen Sie unseren Fortbestand als freies Medium.
Vielen Dank!




Folgen Sie uns auf TELEGRAM


Bleiben Sie mit uns in Kontakt.
Wenn Sie ScienceFiles abonnieren, erhalten Sie bei jeder Veröffentlichung eine Benachrichtigung in die Mailbox.

ScienceFiles-Abo
Loading



ScienceFiles-Shop



Print Friendly, PDF & Email
14 Comments

Bitte keine Beleidigungen, keine wilden Behauptungen und keine strafbaren Inhalte ... Wir glauben noch an die Vernunft!

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Translate »

ScienceFiles-Betrieb

Was uns am Herzen liegt ...

 

Ein Tag ScienceFiles-Betrieb kostet zwischen 250 Euro und 350 Euro.


 

Wenn jeder, der ScienceFiles liest, uns ab und zu mit einer Spende von 5, 10, 20, 50 Euro oder vielleicht auch mehr unterstützt, vielleicht auch regelmäßig, dann ist der Fortbestand von ScienceFiles damit auf Dauer gesichert.


Wir bedanken uns bei allen, die uns unterstützen!


ScienceFiles-Spendenkonto

Vielen Dank!

Holler Box