Sprachspiele statt Wissenschaft?

Empirische Befragungen, Umfragen oder auch Meinungsumfragen genannt, haben sich seit dem Jahre 1940 als Paul F. Lazarsfeld, Bernard F. Berelson und Hazel Gaudet mit der Erie County Study die Grundlagen nicht nur quantitativer empirischer Sozialforschung gelegt haben, zu einem festen Bestandteil der Erforschung menschlichen Handelns und vor allem menschlicher Einstellungen entwickelt.

Voting BerelsonDie Popularität der Erforschung durch Befragung hat dazu geführt, dass die methodischen Probleme, die mit dieser Art der Datenerhebung verbunden sind, in den Hintergrund getreten sind und fast jeder, der in der Lage ist, Fragen oder Aussagen zu formulieren, heutzutage der Ansicht ist, er könne eine Befragung durchführen und die Ergebnisse hinterher als Stein der Weisen verkaufen.

Vor allem die Einstellungsforschung hat in den letzten Jahrzehnten einen Aufschwung erlebt, der selbst die Kursentwicklung der Aktie von Apple in den Schatten stellt.

Kaum eine Institution, die sich nicht für Einstellungen der einen oder anderen Art interessiert.

Die Europäische Kommission interessiert sich für die Einstellungen der Europäer zu Europa und zur Europäischen Union und finanziert mit dem Eurobarometer eine regelmäßige Befragung, die sich immer mehr zum Fragenmoloch entwickelt hat.

Unternehmen interessieren sich für die Einstellungen von Kunden zu Produkten, zu ihrem Unternehmen, sie interessieren sich für Kundenzufriedenheit, die richtige Art und Weise der Mitarbeiterführung, die richtige Mitarbeitermotivation und vieles mehr.

Nicht zu vergessen, die ganzen Parteien und politischen Institutionen, die sich für die politische Einstellung von wem auch immer interessieren. All die Konstrukte von Rechtsextremismus bis Anomie, von Emotion bis politischer Identifikation, von Religiosität bis Technophobie, vom politischer Partizipation bis zum Repressionspotential, sie alle wären nicht möglich, gäbe es nicht entsprechende Einstellungsskalen, die die Messung von Konstrukten, die in der empirischen Sozialforschung als latente Variablen bezeichnet werden, und zwar deshalb, weil man sie nicht direkt messen kann – sondern konstruiert werden müssen, möglich machen sollen (denn Rechtsextremismus gibt es nicht als solchen, er ist ein erdachtes Konstrukt, was oft und gerne vergessen wird, aber jeder merkt, wenn er versucht, ein Kilo Rechtsextremismus zu kaufen.).

Und weil man derart Konstrukte nicht direkt messen kann, muss man sie indirekt erschließen. So wird eine rechtsextreme Einstellung durch eine Reihe von sogenannten Items erfasst, d.h. von Aussagen, für die man annimmt, dass sie eine gemeinsame Dimension, die man als Rechtsextremismus beschreiben kann, umfassen. Wer sich ein Bild darüber machen will, welche Bedeutung und Verbreitung Skalen zur Messung von Einstellung in der empirischen Sozialforschung haben, der soll sich ein wenig Zeit nehmen und sich durch das ZUMA Informationssystem (ZIS) klicken.

Wer dies tut, findet eine Vielzahl sozialwissenschaftlicher Skalen, die zur Messung der unterschiedlichsten Einstellungen entwickelt wurden, Skalen wie die folgende, mit der Umweltbewusstsein gemessen werden soll.

Umweltbewusstsein

Andere Einstellungen wie Rechtsextremismus, Anomie oder politische Partizipation oder politisches Engagement oder transformationaler Führungsstil oder Motivation werden mit ähnlichen, zuweilen umfangreicheren Aussage-Skalen erhoben. Mit statistischen Verfahren, vornehmlich mit der von Cronbach entwickelten Reliabilitätsanalyse und mit der Faktorenanalyse werden die Antworten auf die Aussagen dann zusammengefasst und zu der Einstellung gebündelt, die man damit messen wollte.

Diese Zusammenfassung von im Beispiel Aussagen, die Umweltbewusstsein messen sollen, basiert auf drei Annahmen:

  • Schnell hill esser neuDie Aussagen, die zur Messung der Einstellung genutzt werden, sind voneinander hinlänglich unabhängig.
  • Die Antworten von sagen wir 1000 Befragten auf die Aussagen, zeigen eine hinreichende Konsistenz, so dass es möglich ist, Umweltbewusstsein zu erschließen. Im vorliegenden Beispiel erwartet man z.B., dass ein Befragter, der der Aussage zustimmt,”Wissenschaft und Technik werden viele Umweltprobleme lösen, ohne dass wir unsere Lebensweise ändern müssen”,  der Aussage “Wir vertrauen zu sehr der Wissenschaft und der Technik und zu wenig unseren Gefühlen” nicht zustimmt. Die erste Aussage ist übrigens ein Item für negatives Umweltbewusstsein, die zweite für positives Umweltbewusstsein, was die Konfundierung von Einstellungsforschung mit Ideologie deutlich macht. Aber das ist ein anderes Problem.
  • Die Aussagen, die die latente Variable konstituieren, sind trennscharf gegenüber anderen Aussagen, die in der selben Befragung genutzt werden, um andere Einstellungen zu messen.

Soweit die schöne Welt der Einstellungsforschung. Nun zu den Gewitterwolken, die sich nicht erst seit kurzem zusammengebraut haben, vielmehr gibt es seit mehreren Jahrzehnten heftige Kritiker (z.B. Clyde Coombs), die Einstellungsforschung als moderne Form des Blicks in die Glaskugel ansehen oder, wie Dr. habil. Heike Diefenbach gewöhnlich sagt, als eine Fleischwolf-Methode, bei der man durch die Formulierung von Fragen sicherstellt, dass das, was man vorne hereintut auch hinten herauskommt. Diese Gewitterwolken haben sich nun per Blitz entladen und die ersten Einschläge haben eine Reihe von Skalen zur Messung von Einstellungen getroffen und, soweit man derzeit sagen kann, in ihrer bisherigen Form vernichtet. Es bleibt, um im Bild zu bleiben, nur Rauch und Asche, denn: keine der drei Annahmen trifft zu.

Verantwortlich für diese Verwüstung sind Jan Ketil Arnulf, Kai Rune Larsen, Oyvind Lund Martinsen und Chih How Bong. Die vier Wissenschaftler hatten nicht nur eine gute Idee, sie haben auch neue Analyseverfahren zur Verfügung, um ihre Idee umzusetzen.

Die gute Idee kann man als Befürchtung formulieren:

Was, wenn wir mit Einstellungsskalen nicht die Einstellung der Befragten zu, sagen wir, Rechtsextremismus, oder zur Bundesregierung oder zur Europäischen Union messen, sondern den sprachlichen Zusammenhang unter den Aussagen, mit denen diese Einstellung erhoben werden soll? Was, wenn die Ergebnisse nicht inhaltlich interpretiert werden können, weil sie keinen Aufschluss über die Einstellung der Befragten zum jeweiligen Thema geben?

Wie prüft man so eine Idee ?

Bis vor einiger Zeit (Mitte/Ende der 1990er Jahre) hätte man sie kaum bis gar nicht prüfen können. Aber jetzt gibt es Verfahren wie Latent Semantic Analysis (LSA) oder MI, die semantische Ähnlichkeiten in Texten aufstöbern und quantifizieren. Jeder kennt die Wortwolken, die durch die Größe und Dicke eines dargestellten Begriffs auf dessen Häufigkeit und Wichtigkeit z.B. auf ScienceFiles hinweisen wollen. LSA und MI funktionierren ähnlich, wenngleich elaborierter. Beide Verfahren basieren auf der Erstellung einer “lexikalischen Datenbank”, die Worte und Begriffe aus einer Reihe von Quellen erfasst und deren semantische Nähe angibt.

Die vier Autoren haben für ihre Zwecke eine umfangreiche lexikalische Datenbank aus Texten im Wall Street Journal, Business Week, Forbes und Future, der New York Times, der Washington Post, PR Newswire und etlichen anderen Quellen erstellt, wobei sie sich ihrem spezifischen Forschungsgegenstand entsprechend auf Texte zur Ökonomie und zum Management beschränkt haben. Die resultierende Datenbank erlaubt es Worte, Begriffe und Aussagen nach semantischer Nähe zu bewerten und sogar unterschiedliche Ausdrücke im Hinblick auf ihre semantische Nähe miteinander zu korrelieren.

Der Einschlag und die Spur der Verwüstung, die die vier Autoren mit ihrer Analyse zu verantworten haben, beruht auf semantischer, auf sprachlicher Nähe, und er betrifft zunächst nur den MLQ einen Fragebogen, der aus einer Vielzahl von Aussagen besteht, die genutzt werden, um einen transformationalen Führungsstil zu messen.

Erfolgt die Konstruktion dieses transformationalen Führungsstils auf Basis der Antworten von 1.649 Befragten, wie im Beispiel der vier Autoren, dann ist diese Konstruktion im Hinblick auf ihre Validität und im Hinblick auf ihre Erklärkraft nur minimal besser als eine Konstruktion auf Grundlage semantischer Nähe der Aussagen, die genutzt wurden, um das latente Konstrukt “transformationaler Führungsstil” zu messen. Mit anderen Worten: Man braucht keine Befragten, um deren Einstellung zu im vorliegenden Fall transformationalem Führungsstil zu messen, man kann die Einstellung über die semantische Nähe der benutzten Aussagen vorhersagen.

Das ist der Supergau für die Einstellungsforschung, bedeutet es doch nicht mehr und nicht weniger, als dass Einstellungsforscher mit hoher Wahrscheinlichkeit nicht die Einstellungen messen, die sie messen wollen, sondern die Einschätzung der sprachlichen Nähe der Aussagen, die sie benutzen, um die Einstellungen zu messen, durch ihre Befragten. Das ist nicht nur schlecht, es ist verheerend. Denn würde sich das Ergebnis von Arnulf, Larsen, Martinsen und Bong als generalisierbar, als ausweitbar auf alle anderen Bereiche der Einstellungsforschung erweisen, und bislang gibt es keinen Grund, dies nicht anzunehmen, es hätte erhebliche Konsequenzen:

  • lightning strokeDie Europäische Kommission könnte keine Erfolgsmeldungen mehr über die europafreundliche Einstellung der Mehrheit der Europäer verbreiten.
  • Regierungen könnten ihre politischen Vorhaben nicht mehr mit der Einstellung in der Bevölkerung, deren Umweltbewusstsein oder deren Technikfeindschaft begründen.
  • Politische Institutionen und andere Organisationen könnten sich nicht mehr der Umfrageforschung bedienen, um Rechtsextremisten oder sonstige Feinde ihrer eigenen politischen Einstellung zu brandmarken, jedenfalls so lange nicht, so lange nicht sichergestellt wäre, dass die entsprechende Einstellung valide gemessen wurde.
  • Meinungsforschungsinstitute könnten nicht einfach Fragen erfinden und behaupten, damit bestimmte latente Konzepte, bestimmte Einstellungen zu messen.
  • Empirische Sozialforscher wären wieder gezwungen, mehr Wert auf methodische Aspekte zu legen, was zur Folge hätte, dass sich die Spreu vom Weizen trennt.

Insgesamt sind die Konsequenzen eher positiv zu nennen, und es wäre wünschenswert, dass sie eintreten. Die Chancen dafür stehen gut, denn Forschung, wie die von Arnulf, Larsen, Martinsen und Bong kann nicht mehr weg ge-peer-reviewed oder totgeschwiegen werden durch eine stille Konspiration der Einstellungsforscher im Feld, die keine Lust haben, ihre Methoden hinterfragen zu lassen. Die Forschung ist “out in the open”, open access Zeitschriften wie Plos One machen es möglich. Entsprechend werden sich Einstellungsforscher nach der methodischen Güte ihrer Forschung fragen lassen müssen, und sie werden wohl oder übel sicherstellen müssen, dass sie auch wirlich Einstellungen und nicht sprachliche Artefakte messen, und zwar dadurch, dass sie Aussagen zu Aussagen-Skalen kombinieren, die nicht durch sprachliche Nähe bereits eine entsprechende Skala abbilden und bevor sie mit den Aussagen ins Feld gehen, sicherstellen, und zwar mit LSA oder MI oder anderen Programmen, dass sie keine sprachliche Nähe aufweisen.

Das Feld der empirischen Sozialforscher wird sich entsprechend lichten. Es wird überschaubarer. Und das ist gut so.

Arnulf, Jan Ketil, Larsen, Kai Rune, Martinsen, Oyvind Lund & Bong, Chih How (2014). Predicting Survey Responses: How and Why Semantics Shape Survey Statistics on Organizational Behavior. Plos One.

Print Friendly, PDF & Email

About Michael Klein

… concerned with and about science

6 Responses to Sprachspiele statt Wissenschaft?

  1. Pingback: [Kritische Wissenschaft] Sprachspiele statt Wissenschaft? | netzlesen.de

  2. Dummerjan says:

    Das. Ist. Cool!
    Als “klassischer” Mathematiker-Statistiker war mir das Zeuch ja schon immer suspekt – aber ich habe eigentlich in gewisser Weise darauf vertraut, dass sich die Leute “irgendwas dabei gedacht” haben.
    Stimmt ja auch – eben “irgendwas”.

  3. Manfred Michael Schwirske says:

    Es wird im Sieb nichts hängenbleiben. Was auch. Einstellungspartikel haben die Dimension Null.

  4. Chaeremon says:

    Die Arbeit der vier Autoren mag vielleicht für den computerwissenschaftlichen Laien beeindruckend sein, zerfällt aber (leider) in Elemente die Keiner+Niemand beherrscht. Ganz kurz nur einige Anmerkungen:

    Eine Textbasis aus Wall Street Journal, Business Week, Forbes und Future, der New York Times, der Washington Post, PR Newswire (etc) ist auf dieser Ebene nur Argumentum ad verecundiam.

    Wie viel anders wäre es denn die (mal angenommen umfangreich+erschöpfende) Ausbildungs- und Prüfungsverordnung für Werkstattmechaniker in NRW zu nehmen, liesse sich damit das herbeigewünschte Publikum auch beeindrucken?

    Für irgendwelchen Semantischen Abstand existiert kein Mass, das ist willkürlich und interpretationswillfährig — weiter nix.

    Es existiert kein verlässliches Verfahren um grundsätzlich bestimmen zu können, ob eine Aussage dasselbe “meint” wie eine andere Aussage, und somit existiert keine Grundlage für verbindlichen Semantischen Abstand — jedenfalls nicht in der Gombudderei, eg.
    http://scholar.google.com/scholar?q=nlp+recognition+entailment+semantic

    Es wurde, aus meiner Sicht, das menschliche Orakel durch ein herbeigeglaubt-besseres, aber in den Konsequenzen nicht-beherrschbares (schön teueres) Computer-Orakel ersetzt.

    Ist aber heutzutage modern, weil es Forschungszuschüsse verspricht.

    • Ich schlage vor, Sie lesen den verlinkten Text und sonstige Quelle zu LSA. Mir scheint, die Kritik geht doch sehr am Punkt vorbei. …

      • Chaeremon says:

        Ich habe selbstverständlich gelesen was auf plosone.org zur Verfügung gestellt wurde, leider war nichts (neues) dabei was mich überzeugt hätte, dass das elementare Entailment Problem für Aussagen in natürlichen Sprachen gelöst wäre (sehr viel mehr Interesse habe ich an der zitierten Arbeit nicht, auch nicht am vorgeschlagenen mathematischen Zusammenhang zwischen Causation und Correlation).

        B.t.w. das Arbeiten mit WordNet/Ontologien und was dabei als very similarly herauskomm[t/en kann] ist mir vertraut (seit Doug Lenat und Cyc). Wer trotzdem mit weniger auskommen mag der soll sich von mir bloss nicht aufhalten lassen 😉

        Warten wir doch einfach ab was von dieser Arbeit (weiter-)verwendet wird, ich würde im Erfolgsfall, bei den natürlichen Sprachen, gerne profitieren 🙂

Bitte keine Beleidigungen, keine wilden Behauptungen und keine strafbaren Inhalte ... Wir glauben noch an die Vernunft!

Translate »
error: Content is protected !!
Skip to toolbar