Einführung
Das wichtigste Ziel in der Medizin ist das Überleben der Patient:innen. Gerade bei schwerwiegenden Erkrankungen wie etwa Krebs geht es darum, mit einer Behandlung ein möglichst langes Überleben der Patient:innen zu erreichen. Entsprechend werden Behandlungen meist dahingehend miteinander verglichen, wie lange die Patient:innen nach der Behandlung weiterleben. In diesem Tutorial werden wir uns mit statistischen Methoden für eine solche Überlebenszeitanalyse beschäftigen. Die hier vorgestellten Verfahren eignen sich aber nicht nur für die Analyse des Überlebens, sondern generell für alle Situationen, in denen das Auftreten eines Ereignisses von Interesse ist. Beispiele sind etwa die Zeit bis zum Wiederauftreten einer Erkrankung oder die Zeit bis zur ersten Reparatur oder dem Austausch einer Prothese. Ähnlich wie in den vorangegangenen Tutorien [1–3] werden wir uns mit dem k-Stichprobenfall (k ≥ 1) befassen und werden alle Tests anhand von realen Daten demonstrieren.
Überlebenszeit
Wir sprechen im Folgenden immer von Überlebenszeit, wobei wir auch allgemeiner von Ereigniszeit sprechen könnten. Unser Studienziel ist in diesem Fall, das Leben der Patient:innen bis zu deren Versterben nachzuverfolgen. Aus finanzieller oder auch ethischer Sicht sind Studien aber zeitlich begrenzt. Dies führt in der Regel dazu, dass wir nicht von allen Patient:innen die Überlebenszeit ermitteln können, da zumindest ein Teil der Patient:innen über die Studiendauer hinaus überlebt. Bei diesen Patient:innen wissen wir dann nur, dass diese zum Ende der Studie noch lebten. Das Versterben dieser Patient:innen liegt jenseits (rechts) von unserer vorgegebenen Grenze (Studienende). Man nennt dies eine (rechte) Zensierung (vgl. Abschnitt 8.7.1 in [4]). Auch wenn wir von diesen Patient:innen die genaue Überlebenszeit nicht kennen, dürfen wir diese Patient:innen nicht aus der Analyse ausschließen oder die Zensierungszeit als Überlebenszeit annehmen. Beides würde zu einer Unterschätzung der Überlebenszeit, also zu einem Bias führen [5].
Die wichtigsten Funktionen für die Überlebensanalyse sind die Überlebens- und die Hazardfunktion. Ist T die Lebenszeit (Zeit bis zum Tod), so entspricht die Überlebensfunktion S der Wahrscheinlichkeit, dass ein Patient (allgemeiner: ein Individuum einer Population) eine Lebenszeit T hat, welche länger als ein vorgegebener Zeitpunkt t ist; d. h.:
S(t) = P(T > t) (ϵ [0, 1])
wobei P die Wahrscheinlichkeit bezeichnet. Die kumulative Hazardfunktion H ist dann:
H(t) = -ln(S(t)) (≥ 0)
und die Hazardfunktion h entspricht deren Ableitung: h(t) = H’(t). Die Hazardfunktion beschreibt die Sterberate, also die Rate genau zum Zeitpunkt t zu versterben. Als Hazardfunktionen kommen nur nicht-negative Funktionen (h(t) ≥ 0) in Frage, deren Integral unendlich ist. Dies ergibt sich daraus, dass die Überlebensfunktion S endlich und monoton fallend ist und Werte im Intervall [0, 1] annimmt. Die Überlebensfunktion S(t) wird somit für wachsendes t immer kleiner und ist irgendwann 0. Hieraus folgt, dass die kumulative Hazardfunktion H(t) nicht-negativ und monoton wachsend ist und für wachsendes t irgendwann unendlich ist (vgl. Abschnitt 8.7 in [4]). Vergleicht man das Überleben von zwei Gruppen, so kann man hierfür das Verhältnis der Hazards, die sogenannte Hazardrate, heranziehen. Die Hazardrate entspricht demnach dem relativen Risiko zu versterben [5].
Im Fall k = 1 vergleichen wir die Überlebensfunktion S einer Gruppe mit der Überlebensfunktion einer Standardpopulation S0 [6]. Wir erhalten die Nullhypothese
H0: S = S0
Im Fall k ≥ 2 führt uns dies auf die folgende Nullhypothese
H0: S1 = … = Sk
Die Alternative lautet entsprechend, dass mindestens zwei Gruppen unterschiedliche Überlebensfunktionen aufweisen. Die Gruppen sind hierbei unabhängig voneinander. Im Fall von zwei Gruppen können wir für die Analyse den sogenannten Logrank-Test verwenden [7]. Allgemein kommen hierfür sogenannte lineare Rangtests zum Einsatz. Hierzu zählt auch der Logrank-Test als ein Spezialfall [8]. Eine sehr flexible Alternative zu den Rangtests stellt die Cox-Regression dar, welche es zudem ermöglicht, weitere Variablen in die Analyse einzuschließen [9]. Bei diesen Analysemethoden ist zu beachten, dass die Hazardrate über die Zeit als konstant vorausgesetzt wird. Man spricht daher auch von proportionalen Hazards, und die Cox-Regression wird auch als „proportional hazards regression“ bezeichnet [5]. Konkret bedeutet dies, dass sich die Hazards zwar über die Zeit verändern können, dass deren Verhältnis aber über die Zeit konstant ist. Ist diese Annahme verletzt, gibt es eine Reihe von alternativen Methoden, die man verwenden kann [10]. Die Auswahl eines geeigneten Verfahrens erfordert sorgfältige Überlegungen und geht deutlich über die Zielstellung dieses Tutorials hinaus.
Wir verzichten auf die Demonstration des 1-Stichprobenfalls, da wir hierfür eine entsprechend passende Standardpopulation (Alter, Geschlecht, etc.) definieren müssten.
2-Stichprobenfall
Wir betrachten einen Datensatz zum Einsatz verschiedener Kardioplegieverfahren bei Säuglingen bis 12 kg Körpergewicht, die mit Herz-Lungen-Maschine operiert wurden. Es handelt sich hierbei um Daten aus dem Zeitraum Januar 2014 bis Juli 2021. Die Patient:innen wurden nachverfolgt und falls diese verstarben, das Todesdatum erhoben. Wir vergleichen die zwei Kardioplegieverfahren Custodiol (CCC) mit 333 OPs und Calafiore (MBC) mit 556 OPs. In der CCC-Gruppe verstarben im Beobachtungszeitraum 26 Kinder (7,8 %), in der MBC-Gruppe 54 Kinder (9,7 %). Die Daten dienen nur zur Demonstration der Vorgehensweise. Die Patient:innen wurden nicht weiter stratifiziert und die Analysen auch nicht auf den Herzfehler und die Operation adjustiert. Daher müssen die Ergebnisse mit großer Vorsicht interpretiert werden und es sollten keine voreiligen Rückschlüsse auf die angewandten Kardioplegieverfahren gezogen werden. Wir verwenden für die Berechnungen das R Paket survival [11]. Der Logrank-Test ergibt einen p-Wert von 0,093, die Cox-Regression einen p-Wert von 0,095 (Wald- Test). Im Fall der Cox-Regression gibt es verschiedene Möglichkeiten, den Gruppenunterschied zu testen. Wählt man den sogenannten Score-Test, so ist das Ergebnis identisch zum Logrank-Test. Als dritte Möglichkeit kann auch ein sogenannter Likelihood-Verhältnistest gewählt werden. Dieser Test ergibt in unserem Fall einen p-Wert von 0,088. Wir erhalten folglich keinen signifikanten Unterschied bei der Überlebenszeit für die beiden Kardioplegieverfahren. Die geschätzte Hazardrate für MBC im Vergleich zu CCC liegt bei 1,51 und das 95 %-Konfidenzintervall (CI95) ist 0,93–2,44.
Zur Überprüfung der Annahme von proportionalen Hazards verwenden wir die grafische Darstellung der Überlebensfunktionen, wobei die Kurven üblicherweise mit dem Kaplan-Meier-Verfahren geschätzt werden. Alternativ kann hierzu auch der Fleming-Harrington-Schätzer verwendet werden, der sich aus dem Nelson-Aalen-Schätzer für die kumulative Hazardfunktion ableitet (vgl. Abschnitt 8.7.1 in [4]). Sollten sich die Kurven der Überlebensfunktionen schneiden, muss man davon ausgehen, dass die Annahme von proportionalen Hazards nicht erfüllt ist [5]. Da wir in Abbildung 1 keine Überschneidung der Kurven sehen, können wir davon ausgehen, dass in unserem Fall die Annahme zutrifft.
Die senkrechten Striche in den Kurven in Abbildung 1 stehen für zensierte Daten. In unserem Beispiel ist der Großteil der Beobachtungen zensiert. Üblicherweise wird auch der Median der Überlebenszeit angegeben. Dies ist in unserem Fall nicht möglich, da jeweils noch mehr als 50 % der Patient:innen am Leben waren. Die Überlebensrate nach einem Jahr beträgt im Fall des CCC-Verfahrens 93,9 % (CI95: 91,4–96,5 %) und im Fall des MBC-Verfahrens 91,3 % (CI95: 89,0–93,7%).
Abb.1: Kaplan-Meier-Überlebenskurven für 333 Patient:innen mit CCC und 556 Patient:innen mit MBC (erstellt mit dem Paket ggsurvfit [12] der Statistiksoft- ware R [13])
Abb. 2: Kaplan-Meier-Überlebenskurven für 333 Patient:innen mit CCC, 556 Patient:innen mit MBC, 57 Patient:innen mit mix und 115 Patient:innen mit BH (erstellt mit dem Paket ggsurvfit [12] der Statistiksoftware R [13])
k-Stichprobenfall
Wir erweitern die Analyse aus dem 2-Stichprobenfall, indem wir zusätzlich die Möglichkeiten einer gemischten Anwendung von CCC und MBC (mix) betrachten sowie den Fall einer OP am schlagenden Herzen (BH). Die beiden Gruppen bestehen aus 57 (mix) und 115 (BH) Patient:innen, wobei im Fall von mix 3 (5,3 %) und im Fall von BH 15 (13,0 %) Patient:innen verstorben sind. Auch in diesem Gruppenvergleich fehlt die Adjustierung auf das Krankheitsbild, was bei der Interpretation der Ergebnisse bedacht werden muss. Wir verwenden für die Berechnungen wieder das R Paket survival [11]. Im Fall des Logrank-Tests ergibt sich ein p-Wert von 0,145. Im Fall der Cox-Regression erhalten wir p = 0,146 (Score-Test), p = 0,153 (Wald-Test) und p = 0.140 (Likelihood-Verhältnistest). Wir erhalten demnach erneut keinen signifikanten Unterschied zwischen den Überlebenszeiten. Jedoch zeigt die Darstellung der Überlebenskurven in Abbildung 2, dass es eine Überschneidung bei den Kurven für MBC und BH gibt. Das Risiko, kurz nach der OP zu versterben, ist im vorliegenden Datensatz im Fall von MBC größer als im Fall von BH. Nach einer gewissen Zeit kehrt sich dieser Zusammenhang um und BH weist ein höheres Risiko zu versterben auf als MBC. Dies könnte aber auch ein zufälliges Ergebnis sein, da sehr viele Zensierungen vorliegen und nur sehr wenige Todesfälle beobachtet wurden.
Erneut können wir die mediane Überlebenszeit nicht angeben, da in allen vier Gruppen deutlich mehr als 50 % der Patient:innen noch am Leben waren. Die Überlebensrate nach einem Jahr beträgt im Fall von mix 94,6 % (CI95: 88,9–100 %) und im Fall von BH 89,2 % (CI95: 83,6–95,2 %).
Im k-Stichprobenfall (k > 2) sollte bei einem signifikanten Ergebnis mit Hilfe von Post-hoc-Tests [2] in Form von paarweisen Logrank-Tests bzw. Cox-Regressionen genauer untersucht werden, welche der Gruppen sich in welcher Weise signifikant unterscheiden.