Kompetent, unparteiisch, fair: Drei Irrtümer im Zusammenhang mit Peer Reviews

Sie schreiben einen wissenschaftlichen Text, nach bestem Wissen und Gewissen.
Sie reichen den Text bei einer wissenschaftlichen Zeitschrift ein – peer reviewed.
Sie erwarten, dass der Peer, der ihren Text begutachtet, kompetent, fair, unabhängig, nach bestem Wissen und Gewissen beurteilt, was Sie geschrieben haben.

So kann man sich täuschen!
In Teil 3 unseres Siebenteilers zur Peer Review, stellt Dr. habil. Heike Diefenbach zusammen, was Peer Reviewer alles daran hindert, der Idealtypus, den wir oben beschrieben haben, zu sein: eigene Interessen, Neid, Missgunst …
Der Wissenschaftskrimi geht weiter.


 

“Peer reviewed” – kein Qualitätssiegel! 

von Dr. habil. Heike Diefenbach

TEIL 3
hier geht es zu TEIL 1 und hier zu TEIL 2


3.2 Verzerrungseffekte („biases“) bei Gutachtern oder Herausgebern

Mit der Tendenz bestimmter Gutachter, Manuskripte insgesamt eher positiv oder negativ zu bewerten, die Rothwell und Martyn beobachtet haben, ist schon ein Beleg dafür erbracht, dass die Beurteilung von Manuskripten keineswegs (nur) aufgrund objektivierbarer und replizierbarer sachlicher Kriterien erfolgt, sondern (auch) von den Vorlieben oder Abneigungen von Gutachtern geprägt ist. Sie resultieren in Verzerrungseffekten oder „biases“ bei der Begutachtung von Manuskripten, weil sie „… results [produzieren] that depart systematically from the true values” (Murphy 1976: 239), wobei „true values“ von Manuskripten hier als die Bewertung aufzufassen ist, die Manuskripte erhalten würden, wenn sie allein aufgrund objektivierbarer und replizierbarer sachlicher Kriterien beurteilt würden.

Owen (1982) hat eine ganze Reihe von solchen Verzerrungseffekten (nicht nur bei Gutachtern, sondern Lesern von Fachaufsätzen allgemein,) aufgelistet, die man in verschiedene Bereiche unterteilen bzw. entsprechend zusammenfassen kann (vgl. hierzu die kurze Zusammenfassung bei Weller 2002: 208), u.a. in methodische Verzerrungseffekte, die z.B. dann vorliegen, wenn ein Gutachter/Leser bestimmte Auswertungsverfahren bevorzugt oder ablehnt, in statusbezogene Verzerrungseffekte wie den sogenannten Matthäus-Effekt, der vorliegt, wenn ein Gutachter/Leser sich z.B. in seiner Einschätzung davon leiten lässt, ob ein Text von einem bekannten oder von einem unbekannten Wissenschaftler stammt oder aus einer Projektgruppe an einer anerkannten Forschungseinrichtung oder an einer eher randständigen Einrichtung, und in persönliche Verzerrungseffekte, die in der Person des Gutachters oder Herausgebers liegen, zu denen auch Verzerrungseffekte aufgrund der ideologischen Orientierung eines Gutachters oder Herausgebers gehören, der z.B. bestimmte Positionen aus weltanschaulichen Gründen ablehnt und Manuskripte, die für diese Position sprechen, negativ bewertet, oder Manuskripte positiv bewertet, wenn sie zu Schlussfolgerungen kommen, die dem Gutachter oder Herausgeber weltanschaulich sympathisch sind.

Was ideologisch begründete Verzerrungseffekte betrifft, so berichten Hojat, Gonnella und Caelleigh (2003: 82) von dem Streit um Jay Belskys Untersuchungen über die möglichen negativen Wirkungen, die die Betreuung von Kindern in Tagesbetreuungseinrichtungen auf die Kinder haben kann, wie folgt:

„Another example of the issue [d.h. Verzerrung aufgrund ideologischer Überzeugungen] is Jay Belsky’s study of possible negative effects of day care experiences on children that was rejected for publication on the ground that reporting such findings can generate anxiety among working mothers … When the study was finally published in a less broadly read journal … it generated outrage among proponents of day care centers that continued for a long while …”.

Einer anderen Klasse von persönlichen Verzerrungseffekten widmet sich die Studie von Siegelman (1991), der fünf Gruppen von Gutachtern identifiziert hat, die im Zeitraum von November 1985 bis Mai 1990 als Gutachter für die Zeitschrift Radiology tätig waren, und zwar nach dem Kriterium, wie weit und in welche Richtung ihre Bewertungen von Manuskripten vom arithmetischen Mittel der Bewertungen aller Gutachter insgesamt gesehen abweichen; in der Beschreibung von Siegelman selbst:

„The mean ratings for referees who had been sent 10 or more manuscripts (n = 660) during the period of investigation were computed. The standard deviation of the mean ratings was calculated. On the basis of the deviation from the mean score, reviewers were classified into five categories: zealots, pushovers, mainstream, demoters, and assassins” (Seligman 1991: 637).

Die Untersuchung von Seligman hat gezeigt, dass sich die Existenz der fünf Gruppen von Gutachtern – unter Kontrolle von Zufallseffekten, die dafür gesorgt haben könnten, dass bestimmte Gutachter tatsächlich nur oder überwiegend besonders qualitätvolle oder besonders mangelhafte Manuskripte zu begutachten hatten – nachweisen lässt, d.h. dass es Gutachter gibt, die bei der Begutachtung von Manuskripten Standards haben, die deutlich höher oder deutlich niedriger sind als die Standards der Mehrheit der Gutachter. Dies verweist wieder auf den Lotterie-Charakter des „peer reviewing“:

„Those whose papers are sent by chance to assassins/demoters are at an unfair disadvantage, while zealots/pushovers give authors an unfair advantage” (Seligman 1991: 642).

Darüber hinaus hat Seligman beobachtet, dass „assassins“ und „zealots“, also besonders kritische oder besonders wohlwollende Gutachter, in allen thematischen Bereichen vorkommen, die in der Zeitschrift abgedeckt werden, aber dass sie sich nicht gleichmäßig über alle thematische Bereiche verteilen. So waren im Bereich der Nuklearmedizin und der Computeranwendungen in der Radiologie keine besonders wohlwollenden Gutachter vertreten, während in den Bereichen Ultraschall, Cardiovaskulare Interventionsmedizin und Neuroradiologie am häufigsten wohlwollende oder besonders wohlwollende Gutachter („zealots“ oder „pushovers“) vertreten waren (Seligman 1991: 640, Table 4). Das weist darauf hin, dass bestimmte Subdisziplinen oder Themenbereiche innerhalb einer Disziplin ihre eigene Anspruchs“kultur“ haben, in der Ansprüche durchschnittlich höher oder niedriger sind als in anderen Subdisziplinen oder Themenbereichen. Seligman (1991: 642) hält fest:

„Editors should be aware of reviewer variation. Editors of journals with a small corps of referees undoubtedly will recognize their assassins and zealots and will manage to deal with the disparities. For large journals with numerous reviewers, there is a danger that authors will be treated unfairly if no effort is made to record and to recognize differences in reviewer standards”.

Eine frühe Studie von Mahoney (1977) hat gezeigt, dass es Gutachter gibt, die einem Verzerrungseffekt unterliegen, den man als Bestätigungseffekt bezeichnen kann: Sie haben die Tendenz, Manuskripte positiv zu bewerten bzw. Forschungsergebnisse als zuverlässig zu bewerten, wenn sie mit den derzeit weithin akzeptierten Überzeugungen über den in Frage stehenden Sachverhalt im Einklang stehen, und Manuskripte negativ zu bewerten bzw. Forschungsergebnisse als wenig verlässlich zu bewerten, wenn sie dem angeblichen oder tatsächlichen „Konsens“ widersprechen. Dieser Befunde mag alt sein, aber keineswegs veraltet, sondern – im Gegenteil – von großer Aktualität vor dem Hintergrund der Beschwörung eines angeblich existierenden „Konsenses“ unter sogenannten Klimawissenschaftlern.

Die Ergebnisse der Studie von Peters und Ceci (1982), über die oben schon berichtet wurde, wurden von den Autoren als Beleg für den Matthäus-Effekt interpretiert, weil sie bei ihrer Wiedereinreichung der bereits in der Zeitschrift veröffentlichten Texte erfundene Autorennamen verwendeten, die angeblich an Einrichtungen beschäftigt waren, die ebenfalls erfundene Bezeichnungen trugen und von denen deshalb die Gutachter und Herausgeber der Zeitschrift noch niemals etwas gehört haben konnten.

Eine weitere wichtige Klasse von Verzerrungseffekten hängt mit der gesamten Wissenschaftskultur zusammen, in der Arbeiten weithin als uninteressant angesehen werden, wenn es sich bei ihnen um Replikationsstudien handelt oder um Arbeiten, die die Hypothese, die in der Arbeit geprüft wird, nicht bestätigen.

Dass Letzere eine niedrigere Chance haben, veröffentlicht zu werden, als Arbeiten, die die untersuchte Hypothese bestätigen, belegen u.a. die Arbeiten von Sterling (1959), von Greenwald (1975) und von Dickersin (1990). Der Effekt tritt vermutlich besonders häufig in Fällen auf, in denen der im Manuskript berichtete Nicht-Zusammenhang mit ideologischen Überzeugungen oder sozialpolitischen Positionen konfligiert, wie dies der Fall gewesen ist bei Untersuchungen, die keinen Zusammenhang zwischen dem Kokainkonsum schwangerer Frauen und der Entwicklung des Fötus im Mutterleib feststellen konnten:

„To examine whether studies showing no adverse effects of cocaine in pregnancy have a different likelihood of being accepted for presentation by a large scientific meeting, all abstracts submitted to the Society of Pediatric Research between 1980 and 1989 were analysed. There were 58 abstracts on fetal outcome after gestational exposure to cocaine. Of the 9 negative abstracts (showing no adverse effect) only 1 (11%) was accepted, whereas 28 of the 49 positive abstracts were accepted (57%). This difference was significant. Negative studies tended to verify cocaine use more often and to have more cocaine and control cases. Of the 8 rejected negative studies and the 21 rejected positive studies, significantly more negative studies verified cocaine use, and predominantly reported cocaine use rather than use of other drugs. This bias against the null hypothesis may lead to distorted estimation of the teratogenic risk of cocaine and thus cause women to terminate their pregnancy unjustifiably” (Koren et al. 1989: 1440).

Was den Verzerrungseffekt betrifft, der auf die Ablehnung von Replkationsstudie zurückgeht, so berichten Martin und Clarke (2017: 3), dass psychologische Fachzeitschriften die Einreichung von Manuskripten, die über Replikationsstudien berichten, normalerweise nicht ermutigen. Von 1.151 psychologischen Fachzeitschriften tun dies nur 33; das sind gerade einmal 2,9 Prozent. Tatsächlich gibt es Zeitschriften, die unmissverständlich klar machen, dass Replikationsstudien in ihnen nicht veröffentlicht werden, wie Martin und Clarke 2017: 3) berichten:

„A typical statement is that provided by the International Journal of Behavioral Development, for example: “Studies whose sole purpose is to replicate well-established developmental phenomena in different countries or (sub) cultures are not typically published in the International Journal of Behavioral Development.” This prescription is not unique to this journal”.

Makel, Plucker und Hegarty (2012) haben untersucht, wie häufig Replikationsstudien in den 100 Psychologie-Fachzeitschriften mit den höchsten „impact factors“ seit dem Jahr 1900 tatsächlich vertreten sind. Sie fassen ihre Ergebnisse wie folgt zusammen:

„This investigation revealed that roughly 1.6% of all psychology publications used the term replication in text. A more thorough analysis of 500 randomly selected articles revealed that only 68% of articles using the term replication were actual replications, resulting in an overall replication rate of 1.07%. Contrary to previous findings in other fields, this study found that the majority of replications in psychology journals reported similar findings to their original studies (i.e., they were successful replications). However, replications were significantly less likely to be successful when there was no overlap in authorship between the original and replicating articles. Moreover, despite numerous systemic biases, the rate at which replications are being published has increased in recent decades” (Makel. Plucker & Hegarty 2012: 537).

Replikationsstudien werden also sehr selten gedruckt, und der “bias” gegen Replikationsstudien tritt häufig in Kombination mit dem “bias” gegen Manuskripte auf, die die Hypothese, die in der Arbeit geprüft wird, nicht bestätigen.

Für den Bereich der Sozialwissenschaften und speziell der Management Studies haben Kerr, Tolliver und Petree bereits im Jahr 1977 eine Studie durchgeführt, in deren Rahmen 50 Items umfassende Fragebögen an 19 bekannte sozialwissenschaftliche Fachzeitschriften und Fachzeitschriften aus dem Bereich der Management Studies verschickt wurden, um die wichtigsten Gründe für die Akzeptanz oder Ablehnung von Manuskripten zur Veröffentlichung in diesen Zeitschriften zu identifizieren. Die Autoren berichteten mit Bezug auf Replikationsstudien:

„Item 17 investigated the reaction of reviewers to replicative studies. Generally, it appears that such studies are not considered favourably by the majority of those responding” (Kerr, Tolliver & Petree 1977: 138).

Nur eine einzige der 19 untersuchten Fachzeitschriften war “… not particularly negative toward replication“ (Kerr, Tolliver & Petree 1977: 140).

Aus einer Studie von Neuliep und Crandall (1993), deren Ergebnisse in einer Fachzeitschrift gedruckt wurde, obwohl man sie als Replikationsstudie auf diejenige von Kerr, Tolliver und Petree betrachten kann, berichten die Autoren:

„80 social science journal reviewers responded to questionnaires regarding their reviewing history and attitudes toward replication studies. Results indicate that reviewers were biased against replication studies. Many reviewers regarded studies demonstrating some new effect as more worthwhile and publishable than those studies either replicating an effect or failing to replicate an effect” (Neuliep & Kandall 1993: 21).

Wenn ausgerechnet Replikationsstudien besonders häufig von einer Publikation in einer Fachzeitschrift ausgeschlossen werden, ist das ein großes Problem, denn Replikation ist

„… at the heart of any science. In all science, replication serves at least two purposes: First, to establish the reliability of previous findings and, second, to determine the generality of these findings under differing conditions. These goals, of course, are intrinsically interrelated. Each time that certain results are replicated under different conditions, this not only established generality of findings, but also increases confidence in the reliability of these findings” (Hersen & Barlow 1976: 317).

Durch Replikationsstudien können also die Zuverlässigkeit und die Generalisierbarkeit von Zusammenhängen (oder Nicht-Zusammenhängen), die in „one shot“-Studien beobachtet wurden, geprüft werden, oder anders ausgedrückt: Irrtümer oder unzulässige Verallgemeinerungen können durch Replikationsstudien als solche festgestellt und ggf. korrigiert werden.

Was die Generalisierbarkeit von Beobachtungen in „one shot“-Studien angeht, so hat Lamal diesbezüglich festgehalten:

„We would doubtless all agree that the person who concluded that all dogs are black after seeing only one dog that happened to be black, was foolish” (Lamal 1990: 34).

Seltsamerweise haben ausgerechnet Leute, die Wissenschaftler sein wollen, anscheinend kein Problem damit, nach Beobachtung eines einzigen Hundes, der zufällig ein schwarzer Hund gewesen ist, zu akzeptieren, dass alle Hunde schwarz seien bzw. sein müssten. Für den Bereich der Marketing-Fachzeitschriften stellen Evanschitzky et al. (2007) dementsprechend und entmutigenderweise fest:

„Researchers express concern over a paucity of replications. In line with this, editorial policies of some leading marketing journals now encourage more replications. This article reports on an extension of a 1994 study to see whether these efforts have had an effect on the number of replication studies published in leading marketing journals. Results show that the replication rate has fallen to 1.2%, a decrease in the rate by half. As things now stand, practitioners should be skeptical about using the results published in marketing journals as hardly any of them have been successfully replicated, teachers should ignore the findings until they receive support via replications and researchers should put little stock in the outcomes of one-shot studies” (Evanschitzky et al. 2007: 411; Hervorhebung d.d.A.).

Würden Replikationsstudien als höchst wünschenswert gewertschätzt, regelmäßig durchgeführt und deren Ergebnisse veröffentlicht, unabhängig davon, ob sie den in Frage stehenden Zusammenhang bestätigen oder nicht bestätigen können, wäre dies ein deutliches Signal an alle Forscher, ihre Daten und ihre Verfahrensweisen so transparent wie möglich zu machen und so gründlich wie möglich zu arbeiten – eben weil sie mit einer Replikationsstudie mit Bezug auf die eigene Arbeit rechnen müssen. So betrachtet ist die mangelnde Wertschätzung von Replikationsstudien in der Wissenschaft ein Indikator für mangelnden Willen zur Transparenz und zur Überprüfung der eigenen Arbeit durch Fachkollegen. Wer mag warum Angst vor Replikationsversuchen der eigenen Arbeit haben?!




Derartige Beiträge finden Sie nur bei uns!
ScienceFiles ist ein privates Blog, das u.a. auf Grundlage der Spenden unserer Leser betrieben wird.
Unterstützen Sie unseren Fortbestand als freies Medium.
Vielen Dank!




Folgen Sie uns auf TELEGRAM


Bleiben Sie mit uns in Kontakt.
Wenn Sie ScienceFiles abonnieren, erhalten Sie bei jeder Veröffentlichung eine Benachrichtigung in die Mailbox.

ScienceFiles-Abo



ScienceFiles-Shop


Print Friendly, PDF & Email
Advertisements
4 Comments

Bitte keine Beleidigungen, keine wilden Behauptungen und keine strafbaren Inhalte ... Wir glauben noch an die Vernunft!

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Translate »

Wir benötigen Sie!

ScienceFiles, das sind:


  • neueste wissenschaftliche Forschungsergebnisse;
  • aktuelle Informationen;
  • entblößte Junk Science ;
  • entlarvte öffentlich-rechtliche Fake News;
  • Widerstand gegen die Politisierung des Privaten und vieles mehr;

Seit 7 Jahren sind wir unserer kritisch-rationalen Agenda verpflichtet. Seit 7 Jahren wachsen wir: Mehr Leser, mehr Beiträge, mehr Aufwand.
Ohne Ihre Unterstützung wäre dieses Wachstum nicht möglich, denn: Ein Tag ScienceFiles-Betrieb kostet uns zwischen 250 Euro und 350 Euro. Ihre Spende trägt dazu bei, dass wir ScienceFiles weiter betreiben können.


ScienceFiles-Spendenkonto

Vielen Dank!

Holler Box