Februar 22, 2020

Peer Review ist wie Lotterie spielen, … nur unzuverlässiger

Was passiert, wenn man Texte, die in peer reviewed Zeitschriften veröffentlicht wurden, aus den Zeitschriften entnimmt, die Namen der Autoren mit fiktiven Namen ersetzt, nicht existente Universitäten als Arbeitsort der angeblichen Autoren angibt und die Texte wieder bei DEN SELBEN Zeitschriften einreicht?

Freuen Sie sich auf eine Zusammenstellung von Forschungsergebnissen, die einem die Haare zu Berge stehen lassen.

“Peer reviewed” – kein Qualitätssiegel!

von Dr. habil. Heike Diefenbach

TEIL 2
hier geht es zu TEIL 1

3. „Peer-reviewing“ auf dem empirischen Prüfstand

Die Untersuchungen über „peer-reviewing“, die bislang vorliegen, zeigen erhebliche Mängel der entsprechenden Verfahren in verschiedenen Hinsichten. Im Folgenden berichte ich empirische Befunde aus einer Reihe von Studien, die relativ bekannt sind und relativ einfach gefunden werden können, so dass der Leser sie leicht finden und selbst lesen kann. Untersuchungen über „peer reviewing“ sind inzwischen so zahlreich, dass es kaum möglich ist – jedenfalls nicht mir im Rahmen dieses Textes – eine weitgehend vollständige Darstellung aller existierenden Studien oder Befunde zum Thema „peer reviewing“ zu geben. Der interessierte Leser sei daher auf eigene weiterführende Recherche und Lektüre verwiesen. Er wird ggf. dabei aber feststellen, dass die weiteren Befunde, die er zusammentragen wird, sehr weitgehend im Einklang mit denen stehen, die ich im Folgenden ansprechen werde.

Eine weitere Konsequenz aus der Vielzahl der Studien zum „peer reviewing“, die inzwischen vorliegen, ist, dass man, wenn man einen Überblick über die Befunde geben möchte, sie um der Übersichtlichkeit willen zu ordnen versuchen muss, d.h. sie verschiedenen Themenbereichen oder Aspekten des „peer reviewing“ zuzuordnen (wobei man die ein oder andere Studie ebenso gut einem anderen Bereich bzw. mehr als einem Bereich zuordnen könnte; es geht hier wirklich nur um Effizienz der Darstellung). In der folgenden Darstellung werden fünf Bereiche unterschieden: Der erste Bereich betrifft die hohe Inkonsistenz der Beurteilung von Manuskripten durch Herausgeber oder Gutacher, der zweite Bereich betrifft „biases“ oder Verzerrungseffekte, die durch persönliche Eigenschaften oder Präferenzen von Gutachtern oder Herausgebern zustandekommen oder durch journalistisches statt wissenschaftliches Denken bzw. weit verbreitete Vorurteile darüber, was berichtenswert sei und was nicht. Die mangelnde Fähigkeit von Herausgebern oder Gutachtern, innovative Arbeiten als solche zu erkennen und zu würdigen, ist der dritte Bereich, der im Folgenden betrachtet wird. Der vierte betrifft die mangelnde Fähigkeit von Gutachtern oder Herausgebern, Unsinn als solchen zu erkennen und von der Veröffentlichung auszuschließen, und der letzte Bereich betrifft den – nicht immer leicht zu markierenden– Übergang vom Mangel zum Betrug.

3.1 „Peer reviewing“ gleicht einer Lotterie: Erhebliche Inkonsistenz bei der Beurteilung von Manuskripten

Baxt et al. (1998), die die Qualität von Gutachten durch den Einsatz eines absichtlich mit Fehlern, darunter schwerwiegenden methodischen Fehlern (u.a. eine fehlerhafte statistische Analyse), behafteten, fiktiven Manuskriptes, das an alle Gutachter der Annals of Emergency Medicine, verschickt wurde, überprüft haben, haben u.a. festgestellt, dass in den 203 Gutachten, die sie erhielten,

„[o]nly 9 reviewers identified the 2 existing reports on the use of propranolol for migraine headaches, and only 3 reviewers identified the [two] fictitious references. Thirty-one percent of the reviewers identified statistical errors, and 14.8% of the reviewers (30) misspelled propranolol throughout their reviews” (315),

und

“[t]he number of years since training, the number of other journals reviewed for, and the number of reviews over the last year were not associated with identifying a greater number of major or minor errors. The only statistically significant difference detected was that reviewers at the assistant professor level identified more minor errors than associate professors or professors (Baxt et al. 1998: 315).

In ihrer zusammenfassenden Schlussfolgerung schreiben Baxt et al.:

„On the basis of the results of this study, 1 set of reviewers from 1 specialty failed to identify the majority of major errors placed in such a manuscript and 68% failed to realize that the conclusions were not supported by the data” (Baxt et al. 1998: 316).

Aber „[i]t is not clear that these results can be generalized” (Baxt et al. 1998: 316). Um zu prüfen, inwieweit diese Befunde verallgemeinerbar sind, müssten entsprechende Untersuchungen für Fachzeitschriften bzw. Gutachter in vielen verschiedenen wissenschaftlichen Disziplinen und Sub-Disziplinen durchgeführt werden. Bislang gilt aber, dass es vor allem die Medizin ist, in der man sich bemüht, die Qualität des vermeintlich per se qualitätvollen „peer reviewing“ zu untersuchen und Verbesserungsvorschläge zu formulieren und zu testen, und dies vor allem in den USA und anderen englischsprachigen Ländern der Fall ist. Eine offene Diskussion über den Zustand des „peer reviewing“ im eigenen Fach hat m.W. bislang ebenfalls nur oder vor allem in der Medizin stattgefunden. Nicht nur die Vielzahl der Publikationen zum Thema in fachmedizinischen Zeitschriften zeigen das, sondern u.a. auch die Tatsache, dass mehrere internationale Kongresse über „Peer Review in Biomedical Publications“ vom Journal of the American Medical Association (JAMA) und der British Medical Journal Publishing Group organisiert und durchgeführt wurden (Hojat et al. 2003: 78).

Untersuchungen zum „peer reviewing“ im Fachbereich Medizin ergeben regelmäßig ein sehr ernüchterndes Bild von der Qualität des „peer reviewing“, so z.B. die die Studie von Kravitz et al., die aus dem Jahr 2010 stammt. In der Studie untersuchten die Autoren die Empfehlungen von 5.881 Gutachtern für 2.264 Manuskripte – für die meisten Manuskripte wurden drei Gutachten eingeholt –, die beim Journal of General Internal Medicine (JGIM) in den Jahren 2004 und 2008 eingereicht wurden und von den Herausgebern an externe Gutachten weitergegeben wurden – das waren nur 36 Prozent aller in in den beiden Jahren 2004 und 2008 bei der Zeitschrift eingereichten Manuskripte! Kravitz et al. errechneten statistische Maße für die Übereinstimmung der Gutachterempfehlungen mit Bezug auf das jeweils selbe Manuskript und kamen zum folgenden Ergebnis:

„Among the 2264 manuscripts reviewed during the study period, just under half received reviews that were in complete agreement not to reject (i.e., all reviewers recommended accept/revise), less than 10% received reviews that were in complete agreement to reject, and the balance received reviews with conflicting recommendations … The editors rejected 48% of 2264 manuscripts sent out for external peer-review. If all reviewers recommended not to reject, editors rejected the manuscript 20% of the time. If all reviewers recommended ‘reject’, editors rejected 88% of the time. And if reviewers were divided, editors rejected the manuscript 70% of the time … „The results of this analysis suggest that reviewers for JGIM agreed on the disposition of manuscripts at a rate barely exceeding what would be expected by chance” (Kravitz et al. 2010: 3).

Die Befunde, die bislang aus anderen Fachbereichen, vorliegen, sprechen dafür, dass dort die Qualität des „peer reviewing“ – zumindest! – nicht besser ist als in der Medizin. So haben z.B. Peters und Ceci (1982) in einem frühen Experiment 12 Texte von Forschern ausgewählt, die an bekannten Psychologie-Abteilungen verschiedener Universitäten arbeiteten und diese Texte bereits in psychologischen Fachzeitschriften veröffentlicht hatten, die sich hohen Ansehens erfreuten und eine Ablehnungsrate von Manuskripten von 80 Prozent hatten. Peters und Ceci reichten dieselben Texte nach 18 bis 32 Monaten bei denselben Zeitschriften wieder ein, verwendeten dabei aber fiktive Namen und Einrichtungen. Sie stellten fest, dass von den insgesamt 38 Herausgebern oder Gutachtern, die mit den wiedereingereichten Texten beschäftigt waren, nur drei (bzw. 8 Prozent) die Texte als Wiedereinreichungen erkannten, und von den verbleibenden neun Texten, d.h. den Texten, die nicht als Wiedereinreichung unter anderen Autorennamen erkannt wurden, wurden acht von den Gutachtern oder Herausgebern abgelehnt, meist aufgrund schwerwiegender methodischer Mängel (Peters & Ceci 1982: 187) – und dies bei Texten, die ja bereits in genau dieser Zeitschrift veröffentlicht worden waren, ohne dass sich die Herausgeber oder Gutachter hierüber bewusst waren.

Dieser Befund lässt nicht nur Zweifel daran aufkommen, dass Repräsentanten eines Faches tatsächlich zumindest mehrheitlich die einschlägigen Fachzeitschriften lesen und ggf. die Inhalte erinnern, sondern weist auch darauf hin, dass es – wie in der Studie von Kravitz et al. (2010) – einer Lotterie ähnelt, ob man in einer bestimmten Zeitschrift einen Text veröffentlicht bekommt oder nicht, je nachdem, auf welche/n Gutachter man trifft.

Das „Lotterie-Element“ im „peer reviewing“ haben auch Neff und Olden, diesmal mit Bezug auf Fachzeitschriften im Bereich der Biologie, beobachtet:

„Here we use probability theory to model the peer-review process, focusing on two key components: (1) editors’ prescreening of submitted manuscripts and (2) the number of referees polled. The model shows that the review process can include a strong “lottery” component, independent of editor and referee integrity. Focusing on journal publications, we use a Bayesian approach and citation data from biological journals to show that top journals successfully publish suitable papers—that is, papers that a large proportion of the scientific community would deem acceptable—by using a prescreening process that involves an editorial board and three referees; even if that process is followed, about a quarter of published papers still may be unsuitable. The element of chance is greater if journals engage only two referees and do no prescreening (or if only one editor prescreens); about half of the papers published in those journals may be unsuitable. Furthermore, authors whose manuscripts were initially rejected can significantly boost their chances of being published by resubmitting their papers to other journals” (Neff & Olden 2006: 333).

Justice et al. (1994) haben mit Hilfe einer 10-Punkte-Skala das Ausmaß der Übereinstimmung zwischen Gutachtern, zufällig ausgewählten Lesern und Experten für klinische Forschungsmethoden mit Bezug auf 113 Manuskripte, die bei den Annals of Internal Medicine eingereicht wurden, untersucht. Die Autoren stellten fest:

„Readers and peers gave high grades (77% and 73% gave a grade of 5 or better, respectively), while experts were more critical (52% gave a grade of 5 or better; P < .0001). Agreement was relatively high among judge groups (in all cases, > 69%) but agreement beyond chance was poor (kappa < 0.04). One third of readers (33%) thought that the manuscript had little relevance to their work” (Justice et al. 1994: 117; Hervorhebung d.d.A.).

Schließlich sei auf die Studie von Rothwell und Martyn (2000) hingewiesen, die ebenfalls festgestellt haben, dass die Auswahl von Manuskripten durch peer reviewing einer Lotterie gleicht. Die Autoren haben in ihrer Untersuchung der Gutachten zu Manuskripten, die bei zwei verschiedenen Zeitschriften aus dem Bereich der klinischen Neurowissenschaft eingereicht wurden, beobachtet, dass

„[a]greement between reviewers as to whether manuscripts should be accepted, revised or rejected was not significantly greater than that expected by chance … for 179 consecutive papers submitted to Journal A, and was poor …. for 116 papers submitted to Journal B” (Rothwell & Martyn 2000: 1964).

Die Autoren prüften darüber hinaus die Übereinstimmung zwischen Gutachte(r)n mit Bezug auf Zusammenfassungen von Arbeiten, mit denen sich deren Verfasser um einen entsprechenden Vortrag auf Fachkonferenzen bewarben:

„Abstracts submitted for presentation at the conferences were given a score of 1 (poor) to 6 (excellent) by multiple independent reviewers. For each conference, analysis of variance of the scores given to abstracts revealed that differences between individual abstracts accounted for only 10-20% of the total variance of the scores” (Rothwell & Martyn 2000: 1964),

während

„[o]ver a quarter of the variance in abstract scores (27% for Meeting A and 32% for Meeting B) could be accounted for by the tendency for some reviewers to give higher or lower scores than others” (Rothwell & Martyn 2000: 1966.

Die Autoren kommen aufgrund dieser Befunde zu der folgenden Schlussfolgerung:

„Thus, although recommendations made by reviewers have considerable influence on the fate of both papers submitted to journals and abstracts submitted to conferences, agreement between reviewers in clinical neuroscience was little greater than would be expected by chance alone” (Rothwell & Martyn 2000: 1964).

Derartige Beiträge finden Sie nur bei uns!
ScienceFiles ist ein privates Blog, das u.a. auf Grundlage der Spenden unserer Leser betrieben wird.
Unterstützen Sie unseren Fortbestand als freies Medium.
Vielen Dank!
[wpedon id=66988]

Folgen Sie uns auf TELEGRAM

Bleiben Sie mit uns in Kontakt.
Wenn Sie ScienceFiles abonnieren, erhalten Sie bei jeder Veröffentlichung eine Benachrichtigung in die Mailbox.

ScienceFiles-Shop

Folgen Sie uns auf Telegram.

Anregungen, Hinweise, Kontakt? -> Redaktion @ Sciencefiles.org

Wenn Ihnen gefällt, was Sie bei uns lesen, dann bitten wir Sie, uns zu unterstützen. ScienceFiles lebt weitgehend von Spenden. Helfen Sie uns, ScienceFiles auf eine solide finanzielle Basis zu stellen.

Wir haben drei sichere Spendenmöglichkeiten:

Donorbox

Unterstützen Sie ScienceFiles

Unsere eigene ScienceFiles-Spendenfunktion

Zum Spenden einfach klicken

Unser Spendenkonto bei Halifax:

ScienceFiles Spendenkonto: HALIFAX (Konto-Inhaber: Michael Klein):

IBAN: GB15 HLFX 1100 3311 0902 67
BIC: HLFXGB21B24

Tags:Blaue Reihe, Dr. habil. Heike Diefenbach, kein Qualitätssiegel, Lotterie, Mythos, Peer Review

About The Author

Michael Klein

... concerned with and about science

One Comment

Vorwärts immer

“Man mag sich gar nicht vorstellen, was heutzutage alles erforscht und publiziert wird, bzw. publiziert werden muß um wissenschaftliche Reputation und damit Fördergelder zu bekommen.
Daher wäre es interessant, ob solche Zustände auch bereits zu beschaulicheren Zeiten geherrscht haben, als dieser Massenbetrieb – und das nun weltweit – noch nicht so da war. Wohl eher nicht.
Und schon denke ich an Publikationen zum Klima bzw. zum pc-Klimawandel.
Wie wird’s da wohl sein?
In dieser überwiegend verschworenen Gemeinschaft von staatlich / stattlich gesponserten Spitzenforschern da müssen doch viel strammere Regeln gelten und das Zufallsprinzip ist vermutlich weitgehend ersetzt durch die Haltungs-Signatur.
Gibt es insoweit eigentlich Übersichten zu den Inhalten angenommener Artikel im Vergleich zu denen abgelehnter Artikel? Denn zitierter Konsens ist doch immer nur veröffentlichter Konsens!
Ich vermute, daß es “beim Klima” dringend geboten wäre ein “Journal of refused papers” zu etablieren. Bloß wer würde das finanzieren, welcher Verlag würde es verlegen und wo würde es erlaubt sein es zu präsentieren bzw. bibliothekarisch zu führen, auch wenn es gratis wäre?
Wobei wir wieder beim Internet und einem crowd-funding durch “Unbelehrbare” wären.

Wird geladen …

Februar 22, 2020 Antworten

Bitte keine Beleidigungen, keine wilden Behauptungen und keine strafbaren Inhalte ... Wir glauben noch an die Vernunft!Antwort abbrechen

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.

SciFi

Peer Review ist wie Lotterie spielen, … nur unzuverlässiger

“Peer reviewed” – kein Qualitätssiegel!