Statistik Teil 14: Logistische Regression

KARDIOTECHNIK Ausgabe:
02-2025

Autor:innen

M. Kohl, F. Münch

Hauptautor:in

Prof. Dr. Matthias Kohl Department of Health, Medical and Life Sciences Institute of Precision Medicine Hochschule Furtwangen Jakob-Kienzle-Str. 17, 78054 Villingen-Schwenningen (Germany) Phone: +49 (0) 7720 307-4635 E-Mail: matthias.kohl@hs-furtwangen.de www.hs-furtwangen.de · www.life-data-science.org

Fazitbox

Pro und Contra logistische Regression:

Pro

  • Analog zum linearen Modell lassen sich ANOVA- und ANCOVA-Modelle definieren, wobei man anstelle der Varianz die Devianz betrachtet.
  • Anstelle des Bestimmtheitsmaßes R2 können im Fall der logistischen Regression verschiedene Pseudo-R2 zur Untersuchung der Modellanpassung verwendet werden. Alternativ hierzu sind auch AIC und BIC möglich.
  • Die logistische Regression kann auch für die binäre Klassifikation Anwendung finden.

Contra

  • Ein logistisches Modell sollte immer einer gründlichen Modelldiagnostik unterzogen werden.
  • Das Simpson Paradoxon und Multikollinearität sind auch bei der logistischen Regression zu beachten und sollten bei der Interpretation und Diskussion der Ergebnisse einbezogen werden.
  • Wird eine statistische Modellwahl durchgeführt, so sollte dies mit großer Sorgfalt und unter Verwendung einer internen oder externen Validierung erfolgen.

 

Einführung

In der Medizin und Epidemiologie spielen binäre/dichotome Response-Variablen eine sehr wichtige Rolle. Sie dienen zum Beispiel dazu, um Mortalität, Letalität, Inzidenz oder Prävalenz zu untersuchen. Falls die Response von gewissen erklärenden Variablen abhängt, führt uns dies auf die logistische Regressionsanalyse. Wir haben diese bereits kurz in einem vorangegangenen Tutorial angesprochen [1]. Darüber hinaus wird die logistische Regression auch häufig für die binäre Klassifikation verwendet. Wir werden in diesem Tutorial kurz das multiple logistische Modell vorstellen und auf wichtige Aspekte eingehen, die in der Praxis zu beachten sind. Zur Demonstration führen wir außerdem anhand eines Praxisbeispiels eine logistische Regressionsanalyse durch.

Multiple logistische Regression

Wie in [1] besprochen, führt uns die Betrachtung eines binären Merkmals Y auf die Bernoulli- oder Binomial-Verteilung, wobei die Erfolgswahrscheinlichkeit P(Y = 1) = p  [0, 1] unbekannt ist. Wollen wir den Einfluss von k ³ 1 unabhängigen Variablen auf p untersuchen, so können wir hierfür nicht den direkten Modellansatz

verwenden, da die rechte Seite der Gleichung unbeschränkt ist. Wenn wir hierauf aber die Transformation

anwenden, welche die reellen Zahlen auf das Intervall (0, 1) abbildet, ändert sich die Situation. Wir erhalten

Die Funktion f entspricht einer logistischen Funktion und er- gibt sich auch als Verteilungsfunktion der logistischen Verteilung. Manchmal wird diese auch als expit-Transformation bezeichnet in Analogie zu ihrer Umkehrfunktion

welche üblicherweise logit-Transformation genannt wird. Nutzen wir diesen Zusammenhang, so ergibt sich

das multiple logistische Regressionsmodell (vgl. Abschnitt 8.4 in [2]). Der Ausdruck

wird auch Chance oder Odds genannt. Bei der logistischen Regression handelt es sich demnach um ein lineares Modell für die log-Odds. Die logistische Regression ist außerdem ein spezielles generalisiert lineares Modell, wobei man in diesem Zusammenhang die logit-Transformation auch als Linkfunktion bezeichnet. Die Parameter β0, β1, …, βk können dabei mit Hilfe der Maximum-Likelihood-Methode geschätzt werden, wobei hierfür ein iteratives Verfahren zum Einsatz kommt, das sogenannten Fisher-Scoring. Die Interpretation der Koeffizienten ist im Fall der logistischen Regression etwas schwieriger und man wendet hierfür üblicherweise die e-Funktion auf das Modell an (vgl. Abschnitt 8.4.3 in [2]). Dies führt uns auf

Ändern wir den Wert einer unabhängigen Variable xi um eine Einheit und lassen die anderen unabhängigen Variablen unverändert, so erhalten wir

Die Größe eβi beschreibt demnach das Chancenverhältnis (Odds-Ratio) bei der Veränderung der Variable xi um eine Einheit. Da die anderen k–1 unabhängigen Variablen im Modell unverändert bleiben, spricht man auch von einer adjustierten Odds-Ratio, adjustiert auf die anderen k–1 unabhängigen Variablen. Der Koeffizient eβi wird auch als Einfluss- oder Effekt-Koeffizient bezeichnet. Erhält man einen Wert <1, so hat die Veränderung einen negativen Einfluss/Effekt auf die Odds-Ratio. Ein positiver Einfluss/ Effekt auf die Odds-Ratio liegt vor, falls eβi > 1 ist.

Das logistische Modell basiert auf weniger Voraussetzungen als das lineare Modell (vgl. [3]). Im Wesentlichen muss es einen inhaltlich begründeten (linearen) Zusammenhang zwischen den Regressoren und der log-Odds geben, wobei die Beobachtungen voneinander (stochastisch) unabhängig sein müssen (keine Zeitreihe).

In der logistischen Regression tritt an die Stelle der Residuenquadrate RSS (residual sum of squares) der linearen Regression (vgl. [3]) die sogenannte Devianz (vgl. Abschnitt 8.4.1 in [2]). Folglich spricht man dann auch von einer Devianzanalyse (analysis of deviance) anstatt von einer Varianzanalyse (analysis of variance). Die Nullhypothese H0 : βi = 0 kann (asymptotisch) mit Hilfe eines z-Tests unter- sucht werden. Alternativ kann hierfür auch ein sogenannter Likelihood-Verhältnistest (ein χ2-Test), der auf der Devianz basiert, herangezogen werden.

Es können für logistische Modelle analog zum linearen Modell auch ANOVA- und ANCOVA-Modelle definiert werden, wobei anstelle der Varianz die Devianz analysiert wird.

Für die Modelldiagnostik verwendet man nicht die Residuen wie bei der linearen Regression [3], sondern die sogenannten Devianz- und Pearson-Residuen. Wir verzichten hier auf die Definition dieser Residuen und verweisen statt- dessen auf Abschnitt 8.4.5 in [2]. Falls das Modell korrekt ist, sollten diese Residuen zumindest näherungsweise einer Normalverteilung folgen (vgl. Abschnitt 8.4.5 in [2]).

Da das Bestimmtheitsmaß R2 auf der Varianz basiert, kann es im Fall der logistischen Regression nicht zur Beurteilung der Güte der Anpassung herangezogen werden. Stattdessen kommen hierfür sogenannte Pseudo-Bestimmtheitsmaße R2 zum Einsatz, welche sich aus der Devianzanalyse ergeben (vgl. Abschnitt 8.4.6 in [2]). Man vergleicht die Likelihoods (L) oder log-Likelihoods (logL) von Modell und Nullmodell (Modell mit 0 Regressoren). Bekannte Pseudo- Bestimmtheitsmaße sind:

Eine weitere Alternative ist das Pseudo-R2 von Tjur [7], welches ursprünglich von Tjur als Diskriminationskoeffizient (coefficient of discrimination) bezeichnet wurde:

Es wird in diesem Fall das arithmetische Mittel (AM) der vor- hergesagten Wahrscheinlichkeiten für Beobachtungen mit Y = 1 mit dem AM der vorhergesagten Wahrscheinlichkeiten für Beobachtungen mit Y = 0 verglichen. Neben diesen Pseudo-R2-Werten können auch das Akaike und das Bayessche Informationskriterium (AIC und BIC) für den Vergleich von Modellen herangezogen werden [3].

Das Simpson-Paradoxon und Multikollinearität können auch im Rahmen einer logistischen Regressionsanalyse auftreten (vgl. [3]). Für die Modellwahl gibt es im Fall der logistischen Regression analoge Ansätze wie im Fall der linearen Regression, die mit ähnlichen Einschränkungen verbunden sind (vgl. [3]).

Da das logistische Regressionsmodell auch für die binäre Klassifikation verwendet werden kann, können zur Beurteilung der Ergebnisse auch die entsprechenden Methoden der binären Klassifikation wie etwa die Analyse der ROC (receiver operating characteristic)-Kurve herangezogen werden [8]. Dies geht jedoch über die Zielsetzung dieses Tutorials hinaus.

Beispiel

Wir greifen das Beispiel zur 30-Tage-Mortalität aus dem Tutorial 10 auf [1]. Wir betrachten nur Kinder mit hypoplastischem Linksherzsyndrom, die einer Herzoperation mit extrakorporaler Zirkulation unterzogen wurden. Des Weiteren betrachten wir nur die beiden Kardioplegieverfahren Custodiol (CCC) und pädiatrische Mikroplegie (MBC). Aus einem großen Datensatz mit 1061 Kindern erfüllen 45 Kinder diese Kriterien, wobei 10 der Kinder innerhalb von 30 Tagen nach der Operation (OP) verstarben. Da alle verstorbenen Kinder sehr jung waren (max. 12 Tage), schränken wir den Datensatz weiter ein und schließen nur Kinder ein, die bei der OP maximal 14 Tage alt waren. Dies reduziert den Datensatz auf 32 Kinder. Wir untersuchen mit Hilfe einer logistischen Regressionsanalyse den Einfluss des Kardioplegieverfahrens auf die 30-Tage-Mortalität, wobei wir auf die Ischämiezeit (in Minuten), den VIS-Score und das Gewicht (in Kilogramm) ad- justieren. Bei 8 Kindern wurde CCC eingesetzt, wobei hiervon zwei verstorben sind. Im Fall von MBC sind 8 der 24 Kinder verstorben. Die Residuen in Abbildung 1 wirken zufällig und zeigen keine auffälligen Strukturen.

Abb. 1: Devianz- und Pearson-Residuen für das multiple logistische Regressionsmodell (erstellt mit dem Paket ggplot2 [9] der Statistiksoftware R [10])

Die qq-Plots der Residuen in Abbildung 2 bestätigen, dass wir zumindest näherungsweise von einer Normalverteilung der Residuen ausgehen können.

Für die Pseudo-R2-Maße erhalten wir durchweg recht ähnliche Werte: R2F = 0,20, R2CS = 0,22, R2N = 0,31 und R2= 0,22. Die Werte deuten auf ein akzeptables Modell hin (vgl. Abschnitt 8.4.6 in [2]).

Sowohl einzeln betrachtet als auch im multiplen Regressionsmodell ergibt sich für das Kardioplegieverfahren (z-Test: p = 0,506, χ2-Test: p = 0,494) kein signifikanter Effekt auf die 30-Tage-Mortalität. Auch die Ischämiezeit (z-Test: p = 0,355, χ2-Test: p = 0,345, adj. OR (CI95): 2,19 (0,22 – 22,0)) und der VIS-Score (z-Test: p = 0,675, χ2-Test: p = 0,672, adj. OR (CI95): 0,99 (0,96–1,01)) haben keinen signifikanten Effekt auf die 30-Tage-Mortalität. Im Fall des Gewichts bewegt sich das Ergebnis an der Grenze zur Signifikanz (z-Test: p = 0,053, χ2-Test: p = 0,031, adj. OR (CI95): 0,09 (0,01 – 1,04)). Das 95 %-Konfidenzintervall (CI95) basiert auf der Normalverteilung und ist daher in Verbindung mit dem z-Test zu sehen. Ein um 1 kg höheres Gewicht könnte demnach unter Umständen die Chance, innerhalb 30 Tage nach der OP zu versterben, recht deutlich reduzieren. Wir gehen jedoch nicht davon aus, dass hier ein direkter Kausalzusammenhang zwischen dem Gewicht und der 30-Tage-Mortalität vorliegt, sondern dass es einen oder mehrere Risikofaktoren für die Schwere der Erkrankung und dem damit verbundenen Mortalitätsrisiko gibt, die auch zu einem geringeren Gewicht führen.

Abb. 2: qq-Plots der Devianz- und Pearson-Residuen für das multiple logistische Regressionsmodell (erstellt mit dem R Paket qqplotr [11] der Statistiksoftware R [10])

Die logistische Regression spielt in der Medizin und Epidemiologie eine wichtige Rolle. Es lassen sich analog zum linearen Modell ANOVA- und ANCOVA-Modelle definieren, die jedoch auf der Devianz anstelle der Varianz basieren. Man spricht deshalb auch von Devianz-Analyse. Zur Untersuchung der Modellanpassung können verschiedene Pseudo-R2-Maße verwendet werden, wobei auch AIC und BIC für Modellvergleiche zur Verfügung stehen. Häufig wird die logistische Regression auch für die binäre Klassifikation eingesetzt. In jedem Fall sollte ein gefittetes Modell immer einer gründlichen Modelldiagnostik unterzogen werden. Das Simpson-Paradoxon oder Multikollinearität können auch im Zusammenhang mit der logistischen Regression auftreten. Soll mit Hilfe einer statistischen Modellwahl ein möglichst gutes logistisches Regressionsmodell gefunden werden, so sollte dies mit großer Sorgfalt und unter Verwendung einer internen oder externen Validierung erfolgen, um ein Bias zu vermeiden. Generell empfehlen wir bei komplexen Regressionsanalysen immer einen Statistiker zu konsultieren.

Literatur

1.Kohl M, Münch F. Statistik Teil 10: Wichtige Tests für nominale Merkmale. Die Perfusiologie 2024(2): 57-62. 2.Hedderich J, Sachs L. Angewandte Statistik. Methodensammlung mit R. 17, 2020. Springer-Verlag. 3.Kohl M, Münch F. Statistik Teil 13: Lineare Regression. Die Perfusiologie 2025(1): 26-31. 4.McFadden D. Quantitative methods for analysing travel behaviour of individuals. Some recent developments. In: Hensher DA (Hg), Stopher PR (Hg): Behavioural travel modelling. Croom Helm, 1979: 279-318. 5.Cox DR, Snell EJ. Analysis of binary data. Chapman and Hall.1989. 6.Nagelkerke NJD. A note on a general definition of the coefficient of determination. Biometrika 1991; 78: 691-693. 7.Tjur T. Coefficients of determination in logistic regression models – A new proposal: The coefficient of discrimination. The American Statistician 2009. 63(4): 366-372. 8.Kohl M. Performance measures in binary classification. International Journal of Statistics in Medical Research 2012; 1(1): 79-81. 9.Wickham H. ggplot2: Elegant graphics for data analysis. 2016. Springer-Verlag New York. 10.R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, 2025. Vienna, Austria. URL https://www.R-project.org/ 11.Almeida A, Loy A, Hofmann H (2018). ggplot2 compatible quantile-quantile plots in R. The R Journal, 10(2), 248-261. https://doi.org/10.32614/RJ-2018-051.

Das Fachwissensquiz Januar ’26 ist online!

Das Fachwissensquiz von Januar ’26 zum Thema „Künstliche Intelligenz in der Perfusiologie (Teil 1)“ ist online!

Jeden ersten Montag im Monat bietet dir die DGPTM die Gelegenheit, dein Fachwissen auf den Prüfstand zu stellen und aufzufrischen.

Für jedes absolvierte Quiz erhältst du einen halben Punkt zur EBCP-Akkreditierung. Mit regelmäßiger Teilnahme kannst du so bis zu sechs Punkte im Jahr erreichen. Achtung: Hierfür musst Du eingeloggt sein! Den Fortbildungsnachweis findest Du im Mitgliederbereich.

Das DGPTM-Fachquiz ist mehr als nur ein Wissenstest – es ist deine spannende Chance zur Fortbildung.

Viel Freude beim Rätseln!

Bitte im Mitgliederbereich einloggen – es gibt Neuigkeiten für euch

Daten aktualisieren

Im geschützten Mitgliederbereich könnt ihr ab sofort eure persönlichen Angaben prüfen und aktualisieren. Bitte schaut nach, ob Adresse, E-Mail und weitere Kontaktdaten noch stimmen und ergänzt bei Bedarf eure akademischen Titel, damit wir euch künftig korrekt ansprechen können.

Gehaltsumfrage

Außerdem läuft weiterhin unsere Gehaltsumfrage. Eure Teilnahme hilft, ein realistisches Bild der beruflichen Situation in unserer Berufsgruppe zu zeichnen und Argumentationsgrundlagen gegenüber Kliniken, Politik und Öffentlichkeit zu stärken. Die Umfrage ist anonym und in sehr kurzer Zeit erledigt.

EFN-Barcodes herunterladen

Auf Wunsch könnt ihr euch im Mitgliederbereich auch eure persönlichen EFN-Barcodes anzeigen lassen und ausdrucken. So habt ihr sie für Fortbildungen und Zertifikate jederzeit griffbereit.

Wir freuen uns, wenn ihr euch kurz einloggt, eure Daten auf den neuesten Stand bringt und die Angebote im Mitgliederbereich nutzt.

Preisträger Jahrestagung 2025 und Jubilare der DGPTM

Herzlichen Glückwunsch an die Jubilare der DGPTM und an alle, die einen Preis erhalten haben. Ein ebenfalls großer Dank richtet sich an die Sponsoren der Preise.

Eine Übersicht zu den Abstracts der prämierten Arbeiten befindet sich am Ende des Artikels.

 

Tagungspreis 2025 der DGPTM (Sponsor: free life medical GmbH)

Preisträger: Nicola Kwapil, Universitätsmedizin der Johannes-Gutenberg-Universität Mainz

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Nicola Kwapil, Rigobert Schnur (von free life) und PD Dr. Alexander Horke

 

DGTHG-Preis Fokustagung Herz 2025 (Sponsor: Dr. Franz Köhler Chemie GmbH)

Preisträgerin: Dr. Claudia Arenz, Universitätsklinikum Bonn

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Dr. Claudia Arenz, PD Dr. Alexander Horke und Dr. Stefan Fritz (von Köhler Chemie)

 

Nachwuchsförderpreis der Jungen Foren (Sponsor: Dr. Franz Köhler Chemie GmbH)

Preisträgerin: Gloria Nulchis, Universitätsklinikum Tübingen

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Gloria Nulchis, PD Dr. Alexander Horke und Dr. Stefan Fritz (von Köhler Chemie)

 

Innovationspreis (Sponsor: Eurosets GmbH Deutschland)

Preisträger: Nicola Kwapil, Universitätsmedizin der Johannes-Gutenberg-Universität Mainz

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Nicola Kwapil, Martin Schmidthöfer (von Eurosets), PD Dr. Frank Münch, PD Dr. Alexander Horke

 

Förderpreise (Sponsor: Terumo Deutschland GmbH)

A: bestbewerteter Originalbeitrag

Preisträger: Simon Mayer, Herzzentrum Klinikum Stuttgart

Auf dem Foto von links nach rechts: Dr. Lars Saemann, Simon Mayer und Tilo Barth (von Terumo)

B: beste Erstveröffentlichung

Preisträger: Lukas Fiebig, Hochschule Furtwangen

Auf dem Foto von links nach rechts: Dr. Lars Saemann, Lukas Fiebig und Tilo Barth (von Terumo)

 

Preisträger zum Josef Güttler Stipendium

Preisträger: Jhonathan Torres Mosquera, Universitätsklinikum Magdeburg

Auf dem Foto mit PD Dr. Frank Münch

 

 

Hier die Jubilare aus diesem Jahr, jeweils mit PD Dr. Frank Münch

50 jähriges: Jürgen Witt

40 jähriges: Stefan Kasseckert, Albert Dick

25 jähriges: Olaf Sillmann (Foto anbei), Holger Schulze Schleithoff, Mathias Opitz (Foto anbei), Joachim Naumann (Foto anbei), Frank-Oliver Große (Foto anbei), Markus Fischer, Andreas Behrendt, Johannes Amberger

 

 

Übersicht zu den Abstracts der prämierten Arbeiten

Tagungspreis 2025 der DGPTM

A-168 Kompakter ECMO-Trolley – ein Transportsystem für alle Materialien Nicola Kwapil
(Universitätsmedizin Mainz) (DGPTM)

 

DGTHG-Preis Fokustagung Herz 2025

A-158 Pulmonalklappendilatation bei frühsymptomatischer Fallot-Tetralogie: Erste palliative Maßnahme und Einfluß ballonbedingter Klappeneinrisse auf die chirurgische Strategie Dr. Claudia Arenz (Universitätsklinikum Bonn) (DGTHG)

 

Nachwuchsförderpreis der Jungen Foren

A-174 Über die allometrischen Interaktionen der fraktalen Eigenschaften des kardiovaskulären Gefäßsystems und dem Hagen-Poiseuille’schen Gesetz. Erkenntnisse aus einem mathematischen Modell und der Simulaiton per Computational Fluid Dynamics für Bypässe. Gloria Nulchis
(Universitätsklinikum Tübingen)

 

Innovationspreis

A-167 Kinder ECMO Fahrtrage 2.0 – eine standardisierte Lösung für Deutschland Nicola Kwapil
(Universitätsmedizin Mainz) (DGPTM)

 

 

Credits der Fotos:

DGPTM/Klindtworth

Der „Maschinist“ im Saal. Die Arbeit von Perfusionist:innen (Zeitungsartikel)

Im Operationssaal gibt es eine Berufsgruppe, die nie direkt am OP-Tisch stehen und doch überlebenswichtig in ihrer Tätigkeit sind: die Perfusionist:innen. Während das Operationsteam am Herzen arbeitet, steuern sie die Herz-Lungen-Maschine, überwachen Blutfluss, Sauerstoffsättigung und zahlreiche Laborwerte und sorgen dafür, dass der Körper des Patienten auch dann optimal versorgt bleibt, wenn Herz und Lunge vorübergehend stillstehen. Ihre Arbeit verbindet hochpräzise Medizin mit komplexer Medizintechnik – entscheidend dafür, dass solche Eingriffe überhaupt möglich sind.

Zeitungsartikel Donaukurier Geschichte aus dem OP Saal

Willkommen zur neuen Webseite

Nach über einem ¾ Jahr der Planung, intensiven Meetings, Codierung und Schreibarbeit ist am 13.01.2025 ist unsere neue Website live gegangen und wir sind stolz, hier ein neues Zuhause für unsere Mitglieder geschaffen zu haben. Zukünftig soll sie zur zentralen Plattform des Austauschs in unserer Community werden. Dafür arbeiten wir im Hintergrund an spannenden Erweiterungen.

Ein Highlight wird ein eigener „News“-Bereich sein, der euch stets über aktuelle Entwicklungen rund um Perfusion und technische Medizin informiert. Schaut regelmäßig vorbei und bringt euch ein – wir freuen uns auf eure Anregungen!

Anmeldung

oder
Achtung: Mehrfache Anforderungen beschleunigen die Mailzustellung nicht. Ein Login mit Microsoft funktioniert nur, wenn die Microsoft-Email der hinterlegten E-Mail Adresse entspricht.
Als Mitglied der DGPTM können Sie sich mit der bei uns hinterlegten Mailadresse oder Ihrem Benutzernamen ganz einfach mit einem Einmalpasswort einloggen. Dieses bekommen Sie per Mail geschickt. Sie werden danach direkt in den Internen Bereich geleitet.
Ihr Benutzername besteht aus den ersten beiden Buchstaben Ihres Vornamens und Ihrem Nachname (ä=ae ect).