Die Erde in COVID-19

Schöne bunte COVID-19 Welt:

Die Abbildung ist das Ergebnis einer guten Idee, bei deren Umsetzung mehr Wert auf den Transfer der guten alten Cluster-Analyse in den Bereich der KI gelegt wird, als auf den damit verbundenen Informationswert, so dass am Ende Ergebnisse stehen, die an Trivialität kaum zu überbieten sind. Wir präsentieren sie dennoch, denn – wie gesagt – die Idee ist gut.

Eine Clusteranalyse ist ein statistisches Verfahren, das dazu dient, auf Basis einer Menge von Ausgangsvariablen homogene Cluster zu bilden und die Fälle in diesen Clustern zu gruppieren. Die Clusteranalyse gehört schon seit Jahrzehnten zum Standard der statistischen Toolbox, und wird in letzter Zeit unter “unsupervised machine learning algorithms” wieder neu entdeckt. Sucht man danach, was mit “unsupervised machine learning algorithms” tatsächlich gemeint ist, dann findet man gute alte Bekannte wieder, z.B. die principal component analysis, ein Verfahren, das in Faktorenanalysen zum Einsatz kommt, sowie eine Technik, die als “k-means” bezeichnet wird und im Rahmen von Faktorenanalysen als Scree-Plot bekannt ist. Kurz: Altes wird unter neuen Bezeichnungen vermarktet. Faktorenanalysen als Clusteranalysen ausgegeben. Dafür verantwortlich sind in diesem Fall Rodrigo M. Carrillo-Larco und Manuel Castillo-Cara, beide am Imperial College in London, of all places, beschäftigt.



Ihre neue “unsupervised” Technik, deren Vorteil wir nicht wirklich zu erkennen vermögen, dient dazu, im Hinblick auf eine abhängige Variable, z.B. die Anzahl der positiv auf COVID-19 Getesteten oder der daran Verstorbenen, homogene Cluster von Einheiten zu finden, wobei die Einheit im vorliegenden Fall Länder sind. Interessiert man sich dafür, welche Länder miteinander klumpen, um aus solchen Ergebnissen Rückschlüsse z.B. darauf ziehen zu können, welche Merkmale ein Land auszeichnen, das im Kampf gegen COVID-19 erfolgreicher ist als andere, dann bietet sich ein Vorgehen, wie das von Carrillo-Larco und Castillo-Cara an. Warum man alte Methoden dabei in ein neues Umhang packen soll, ist uns allerdings nicht klar. Zumal über der Begeisterung mit der “neuen Methode” oftmals der Zweck verloren geht. So wie im vorliegenden Fall. Die Ergebnisse, die oben dargestellt sind, basieren auf Länderdaten für die folgenden Variablen:

  • Prävalenz von Diabetes,
  • Prävalenz chronischer Atemwegserkrankungen,
  • Prävalenz von HIV/AIDS,
  • Prävalenz von Tuberkulose,
  • Luftqualität als Feinstaubkonzentration,
  • Bruttosozialprodukt per capita,
  • Anteil der Krankenversicherten,
  • Anteil Männer,

Warum die Analyse mit Variablen wie den letzten dreien belastet werden und letztlich zerstört werden muss, ist eine Frage, die nur die Autoren beantworten können. Durch den Einschluss des Bruttosozialprodukts sowie des Anteils der Krankenversicherten ist gesichert, dass westliche Industriestaaten zusammen klumpen. Alle vielleicht vorhandenen Unterschiede werden dadurch beseitigt. Tatsächlich finden sich alle westlichen Industrienationen mit Ausnahme von Irland, Island und Norwegen in Cluster 4. Der Grund dafür, dass Island, Norwegen und Irland aus der Gruppe der anderen Industrienationen herausfallen, liegt darin begründet, dass ihr Median-pro-Kopf-Bruttosozialprodukt noch höher liegt als in der Gruppe der restlichen westlichen Industrienationen und vor allem daran, dass Diabetes in den drei Ländern seltener zu finden ist.

Die meisten afrikanischen Länder, Pakistan, Afghanistan, die Philippinen und Malaysia klumpen vornehmlich deshalb miteinander (grüne Länder), weil sie eine deutliche höhere Prävalenz an HIV/AIDS und Tuberkulose aufweisen, die durch eine Luftverschmutzung, die deutlich höher ist als in westlichen Industrienationen aber deutlich geringer als in Asien ergänzt wird.

Russland, der ehemalige Ostblock, Südamerika und Südafrika klumpen miteinander. Der Grund dafür ist nicht wirklich offenkundig. Vermutlich zeichnen sich die entsprechenden Ländern dadurch aus, dass sie auf allen Variablen, die im Modell zum Einsatz kommen, eine mittlere Position einnehmen, also weder das höchste noch das geringste Bruttosozialprodukt aufweisen, bei Diabetes und Tuberkulose weder in der einen noch der anderen Richtung auffällig sind und auch bei der Luftverschmutzung mittelmäßig abschneiden.

Schließlich bilden China, Indien, Saudi Arabien, der Irak, Niger und Kamerun ein einheitliches Cluster, das sich vor allem durch eine hohe Luftverschmutzung, eine hohe Prävalenz von Diabetes, ein recht hohe Prävalenz an Tuberkulose und einen höheren Anteil von Männern in der Bevölkerung auszeichnet.

Soweit die Beschreibung, und nun, da die Arbeit zum eigentlichen Zweck kommt, denn die Analyse wird ja ausgeführt, um einen Hinweis auf gemeinsamen Besonderheiten von unterschiedlichen Ländern im Hinblick auf die Verteilung von COVID-19 aufzuzeigen, nun kommt der Moment, in dem alles in sich zusammenfällt. Lediglich zwei Ergebnisse berichten die Autoren zum eigentlichen Anlass ihrer Analyse, jedenfalls sollte man denken, dass die Vorhersage von Gemeinsamkeiten, die Länder mit einer bestimmten Ausprägung von positiv auf COVID-19 Getesteten und an COVID-19 Gestorbenen haben, das Ziel der Analyse gewesen sei. Scheint es aber nicht gewesen zu sein, denn die einzigen Krumen, die die Autoren ihren Lesern hinwerfen, sind die folgenden:

  • Cluster 4 (westliche Industrienationen) hat die größte Anzahl positiv auf COVID-19 Getesteter;
  • Cluster 2 (Weite Teile Afrikas, Pakistan, Afghanistan, Philippinen, Malaysia) haben die höchste Sterberate;

Ergebnis Nummer 1 ist bekannt und ein zudem ein Artefakt, das auf die Berücksichtigung des Bruttosozialprodukts zurückzuführen ist.
Ergebnis Nummer 2 wäre interessant, wenn man davon ausgehen könnte, dass die höchste Sterberate im Hinblick auf COVID-19 festgestellt wurde. Das wurde sie aber nicht. Da in den genannten Ländern unzählige Menschen an Tuberkulose, Malaria und nach wie vor an HIV/AIDS sterben, ist auch dieses Ergebnis weitgehend belanglos.

Schade.

Wie gesagt, die Idee ist gut. Viele Diskussionen, die in den letzten Wochen und Monaten geführt wurden, vom Einfluss der ethnischen Herkunft auf die Sterbewahrscheinlichkeit, über die Rolle von Luftverschmutzung und Atemwegserkrankungen bis zur Frage, ob Morbiditäten, um die es etwas still geworden ist, eine große Rolle bei der Sterblichkeit spielen, könnten mit einer Analyse im Stile der vorliegenden dadurch beendet werden, dass in einem multivariaten Umfeld die Rolle der einzelnen Variablen untersucht wird.

Vielleicht findet sich ja ein anderer Mitarbeiter im Imperial College, der sich dieser Frage widmet.


Carrillo-Larco, Rodrigo M. & Castillo-Cara, Manuel (2020). Using Country-level Variables to Classify Countries According to the Number of Confirmed COVID-19 Cases: An Unsupervised Machine Learning Approach.



Informationen aus erster Hand gibt es oft nur bei ScienceFiles.

Unterstützen auch Sie unseren Fortbestand als freies Medium.
Vielen Dank!




Folgen Sie uns auf TELEGRAM


Bleiben Sie mit uns in Kontakt.
Wenn Sie ScienceFiles abonnieren, erhalten Sie bei jeder Veröffentlichung eine Benachrichtigung in die Mailbox.

ScienceFiles-Abo
Loading



ScienceFiles-Shop


Print Friendly, PDF & Email
One Comment

Bitte keine Beleidigungen, keine wilden Behauptungen und keine strafbaren Inhalte ... Wir glauben noch an die Vernunft!

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Translate »

Verteidigen Sie die Freiheit!

Wie viele Blogs, deren Betreiber kein Blatt vor den Mund nehmen, kennen Sie?

Es  gibt wenige. ScienceFiles ist eines davon.

  • Wir kümmern uns nicht um politische Vorlieben und Korrektheit.
  • Wir beurteilen Sachfragen auf Basis von empirischen Informationen, nicht auf Basis von Werturteilen.

Deshalb versuchen politisch Korrekte, uns zu schaden. Deshalb ist IHRE Unterstützung so wichtig


Ein Tag ScienceFiles-Betrieb kostet uns zwischen 250 Euro und 350 Euro. Ihre Spende trägt dazu bei, dass wir ScienceFiles weiter betreiben können.


ScienceFiles-Spendenkonto

Vielen Dank!

Holler Box