Einführung
In den vorangegangenen beiden Tutorials wurde detailliert der Vergleich von Mittelwerten im 1- und 2-Stichprobenfall besprochen [1,2]. In diesem Tutorial wird nun die Situation von drei oder mehr unabhängigen oder abhängigen Gruppen behandelt. Man spricht in diesem Fall auch von einer 1-Weg ANOVA (ANalysis Of VAriance) oder 1-Weg-Varianzanalyse. Im Fall von abhängigen Gruppen verwendet man zur Unterscheidung zum Teil auch die Abkürzung rANOVA, was für eine ANOVA mit Messwiederholungen (repeated measures) steht. Im Folgenden werden verschiedene Varianten der 1-Weg ANOVA vorgestellt, darunter auch Varianten, die auf Permutationen oder Bootstrap basieren, und Kriterien angeben, die bei der Testauswahl helfen sollen. Alle Tests werden anhand von realen Daten genauer demonstriert.
k-Stichproben Tests
Im k-Stichprobenfall (k ≥ 3) werden die Mittelwerte (arithmetisches Mittel) von k-Gruppen miteinander verglichen. Dies führt auf die folgende Nullhypothese:
H0: µ1 = µ2 = … = µk
Die Alternative lautet entsprechend, dass mindestens zwei Gruppen unterschiedliche Mittelwerte besitzen und lässt sich etwas schwieriger in einer expliziten Form angeben. Die Gruppen können hierbei abhängig oder unabhängig sein. Im Fall von abhängigen Gruppen liegen üblicherweise Messwiederholungen von k verschiedenen Zeitpunkten vor.
Im Unterschied zum 2-Stichprobenfall ist bei einem signifikanten Ergebnis in der 1-Weg ANOVA nicht automatisch klar, welche Gruppen sich hinsichtlich ihrer Mittelwerte unterscheiden. Daher werden in diesem Fall üblicherweise sogenannte Post- hoc-Tests durchgeführt, bei denen die Gruppen paarweise miteinander verglichen werden. In der Regel werden dabei alle möglichen paarweisen Vergleiche durchgeführt. Damit bei diesen paarweisen Vergleichen, bei denen mehrere statistische Tests parallel durchgeführt werden, der Fehler 1. Art nicht unkontrolliert anwächst, werden die p-Werte aus den paarweisen Vergleichen üblicherweise einer Adjustierung unterzogen. Sehr gut geeignet ist hierfür insbesondere die Methode von Holm [3], welche die sogenannte FWER (family-wise error rate) kontrolliert. Bei der FWER handelt es sich um die Wahrscheinlichkeit, dass man mindestens einen Fehler 1. Art macht, also mindestens ein falsch positives Testergebnis erhält. Die adjustierten p-Werte können dann mit dem gewählten Signifikanzniveau α verglichen werden, wie dies bei einzelnen Tests üblich ist. Generell fällt die Adjustierung der p-Werte umso stärker aus, je mehr paarweise Tests durchgeführt werden. Daher ist es von Vorteil, wenn nicht alle paarweisen Vergleiche durchgeführt werden müssen. Dies kann zum Beispiel der Fall sein, wenn nur der Vergleich zu einer Referenzgruppe interessiert. Es ist bei der Anwendung von Post-hoc-Tests außerdem sehr wichtig, darauf zu achten, dass die angewendeten Post-hoc-Tests zur gewählten Variante der 1-Weg ANOVA passen. Anderenfalls kann es zu inkonsistenten Ergebnissen kommen; d. h. trotz einer signifikanten 1-Weg ANOVA liefert keiner der Post-hoc-Tests ein signifikantes Ergebnis.
Unabhängige Gruppen
Folgen die Werte der unabhängigen Gruppen einer Normalverteilung mit identischer Varianz (Homoskedastizität), so führt dies auf die klassische 1-Weg ANOVA. Sind die Varianzen verschieden (Heteroskedastizität), kann man stattdessen die Welch 1-Weg ANOVA verwenden [4]. Ist es unklar, ob Normalverteilungen vorliegen, so können Permutations- oder Bootstrap-Varianten der 1-Weg ANOVA angewendet werden. Außerdem kann auch eine auf Rängen basierende Analyse (1-Weg ANOVA mit Rängen) durchgeführt werden, die als Kruskal-Wallis H-Test bekannt ist [5]. Insbesondere für Situationen mit ungleichen Gruppengrößen und/oder ungleichen Varianzen wurden eine Reihe unterschiedlicher Ansätze vorgeschlagen. Das Erweiterungspaket onewaytests [6] für die Statistiksoftware R [7] enthält zum Beispiel 22 verschiedene Methoden, um entsprechende Gruppenvergleiche durchzuführen. Im Wesentlichen handelt es sich dabei um Varianten der oben aufgeführten Möglichkeiten.
Für die Auswahl der am besten geeigneten 1-Weg ANOVA können Fragen herangezogen werden, die identisch zum 2-Stichprobenfall sind und bereits während der Planung einer Studie beantwortet werden sollten [2]. Die Auswahl der am besten geeigneten 1-Weg ANOVA erfolgt entsprechend analog zum 2-Stichprobenfall und ist in Abb. 1 grafisch dargestellt.
Zur Demonstration der Verfahren verwenden wir die glomeruläre Filtrationsrate (GFR) nach einer Operation mit Herz-Lungen-Maschine, wobei wir drei Gruppen unterscheiden. Eine Gruppe erhielt für eine bessere Verteilung des Blutes zum „venösen Pooling“ zusätzlich Nitroprussid, eine zweite Gruppe zusätzlich Nitroglycerin und eine Gruppe war ohne Intervention. Es liegen Daten von 614 Patient:innen vor (Nitroprussid: 219, Nitroglycerin: 176, ohne Intervention: 219). Wir gehen davon aus, dass die GFR-Werte für die drei Gruppen näherungsweise symmetrisch verteilt sind und ungleiche Varianzen aufweisen. Dies wird durch die Box- und Whisker-Plots in Abbildung 2 und die Tatsache bestätigt, dass Mittelwerte (MW) und Mediane (Med) der GFR ähnlich sind (Nitroprussid: MW = 84, Med = 84; Nitroglycerin: MW = 112, Med = 108; ohne Intervention: MW = 107, Med = 108), wobei die Standardabweichungen (SD) etwas voneinander abweichen (Nitroprussid: SD = 37; Nitroglycerin: SD = 39; ohne Intervention: SD = 43).
Bei Vorliegen einer symmetrischen Verteilung fallen arithmetisches Mittel, Median und Hodges-Lehmann-Schätzer (Median aller paarweisen Differenzen) zusammen. Im Folgenden verwenden wir daher bei Beschreibungen zur Vereinfachung jeweils nur den Begriff Mittelwert.
Wir berechnen neben der Welch 1-Weg ANOVA und dem Kruskal-Wallis H-Test eine 1-Weg ANOVA basierend auf Permutationen [9] und eine basierend auf Bootstrap [10]. Auch wenn keine Normalverteilung vorliegt, gehen wir aufgrund der recht großen Gruppen davon aus, dass auch die Welch 1-Weg ANOVA zumindest näherungsweise den Fehler 1. Art einhalten sollte. Für die Berechnungen verwenden wir die Statistiksoftware R [7] in Kombination mit dem Paket stats [7] für die Welch 1-Weg ANOVA und den Kruskal-Wallis H-Test. Für die Permutations-ANOVA verwenden wir das Paket GFD [11] und für die Bootstrap-ANOVA das Paket onewaytests [6]. Wir legen bei allen Tests ein Signifikanzniveau von 5 % zugrunde. Wir erhalten bei allen vier Tests ein signifikantes Ergebnis (Welch 1-Weg ANOVA: p = 1,6 * 10-13; Kruskal-Wallis H-Test: p = 6,1 * 10-12; Permutations-ANOVA: p = 1,3 * 10-12; Bootstrap-ANOVA: p < 1 * 10-5). Wir führen daher in einem nächsten Schritt paarweise Vergleiche zwischen den Gruppen mittels entsprechender Post-hoc-Tests durch. Im Fall der paarweisen Welch t-Tests und der WMW-Tests verwenden wir das R Paket MKinfer [12]. Im Fall der paarweisen Permutations- und Bootstrap-Tests erneut die Pakete GFD [11] und onewaytests [6]. Der Mittelwert der GFR-Werte ist in der Nitroprussid-Gruppe signifikant niedriger als in der Nitrogylcerin-Gruppe und der Gruppe ohne Intervention. Der Mittelwert der GFR-Werte der Nitroglycerin-Gruppe unterscheidet sich nicht signifikant vom Mittelwert der Gruppe ohne Intervention. Die adjustierten p-Werte (adj.p) und die 95 % Konfidenzintervalle (ohne Adjustierung) sind in Abb. 3 dargestellt.
Wir erhalten für alle Tests recht ähnliche Ergebnisse. Dies dürfte daran liegen, dass die Gruppen relativ groß sind und keine wesentlichen Ausreißer vorliegen.
Abhängige Gruppen
Im Fall von abhängigen Gruppen führt die Annahme von Normalverteilungen auf die sogenannte 1-Weg ANOVA mit Messwiederholungen (repeated measures) (rANOVA), wobei man zusätzlich voraussetzen muss, dass die Varianzen der Differenzen für alle möglichen Paare von Gruppen gleich sind. Diese Annahme wird auch Sphärizität oder Zirkularität genannt. Heute wird aber bei Vorliegen von Normalverteilungen stattdessen oft eine 1-Weg ANOVA mit gemischten Effekten (mixed effects) herangezogen. Man bezeichnet dies auch als ein Mehrebenenmodell (multi-level model). Hierbei werden die Messzeitpunkte als ein fester/deterministischer Effekt (fixed effect) betrachtet; d. h., es handelt sich um klar definierte Zeitpunkte, die man auch in einer neuen Studie wieder so wählen würde. Die Patient:innen werden als zufälliger Effekt (random effect) modelliert. Das bedeutet, dass es sich um eine Zufallsstichprobe aus einer größeren Population handelt und man in einer neuen Studie andere Patient:innen zufällig wählen würde. Ist es unklar, ob Normalverteilungen vorliegen, so können Permutations- oder Bootstrap-Varianten der 1-Weg rANOVA angewendet werden. Außerdem kann auch eine auf Rängen basierende Analyse durchgeführt werden. Hierfür kommen der Friedman Test (Verallgemeinerung des Median Tests) [13] und der Quade Test (Verallgemeinerung des Wilcoxon Vorzeichenrangtests) [14] in Frage. Im Fall eines signifikanten Ergebnisses werden die Messzeitpunkte üblicherweise mit Hilfe geeignet gewählter Post-hoc-Tests paarweise verglichen. Aufgrund der Abhängigkeit kommen hierfür gepaarte 2-Stichprobentests zum Einsatz. Die p-Werte der paarweisen Tests sollten zum Beispiel mit dem Verfahren von Holm [3] adjustiert werden.
Die Auswahl der am besten geeigneten 1-Weg ANOVA mit Messwiederholungen erfolgt ähnlich wie im Fall von unabhängigen Gruppen und ist in Abb. 4 dargestellt. Da bei einer Verletzung der Sphärizitäts-/Zirkularitäts-Annahme die Tests zu liberal werden (d. h., Fehler 1. Art ist größer als α), empfiehlt es sich, zusätzlich zum Beispiel die Huynh-Feldt Korrektur anzuwenden bzw. im Fall der ANOVA mit gemischten Effekten eine unstrukturierte Kovarianzmatrix zu verwenden [15].
Wir betrachten zur Demonstration wieder die glomeruläre Filtrationsrate (GFR) nach einer Operation mit Herz-Lungen-Maschine (HLM), wobei wir nur die Gruppe betrachten, die zusätzlich Nitroglycerin erhalten hat. Wir wollen den Verlauf der GFR-Werte vom Zeitpunkt vor der OP (prä OP) über den Zeitpunkt nach der extrakorporalen Zirkulation (post EKZ) bis hin zum ersten Tag nach der EKZ (24 h post EKZ) untersuchen. Wir schließen entsprechend nur Patient:innen ein, bei denen Messwerte von allen drei Zeitpunkten vorliegen. Dies reduziert die Anzahl der Patient:innen von 176 auf 167. Wir gehen davon aus, dass die paarweisen Differenzen der GFR-Werte näherungsweise symmetrisch verteilt sind und ungleiche Varianzen aufweisen. Dies wird durch die Box- und Whisker-Plots in Abb. 5 und die Tatsache bestätigt, dass Mittelwerte (MW) und Mediane (Med) der paarweisen Differenzen ähnlich sind (prä OP vs. post EKZ: MW = –4,8, Med = –1,9; prä OP vs. 24 h post EKZ: MW = –14,9, Med = –12,6; post EKZ vs. 24 h post EKZ: MW = –10,1, Med = –9,2). Insbesondere können wir hieraus erkennen, dass die GFR-Werte zum Zeitpunkt 24 h post EKZ für die meisten Patient:innen am niedrigsten sind. Auch sind bei allen Vergleichen vereinzelte Ausreißer zu erkennen, wobei speziell bei den Ausreißern nach unten die Gefahr besteht, dass diese das Ergebnis hin zu einer verstärkten Abnahme verfälschen. Wir werden den Einfluss dieser Ausreißer auf das Ergebnis in der Analyse prüfen (Sensitivitätsanalyse).
Wir berechnen eine 1-Weg rANOVA mit Huynh-Feldt Korrektur, eine mixed effects 1-Weg ANOVA mit unstrukturierter Kovarianzmatrix sowie den Quade und den Friedman Test. Wir verwenden hierfür die R Pakete afex [16] und MKinfer [12]. Außerdem berechnen wir eine Permutations- und eine Bootstrap 1-Weg rANOVA mit den Paketen permuco [17] und boot [18]. Wir legen bei allen Tests ein Signifikanzniveau von 5 % zugrunde. In allen sechs Fällen ergibt sich ein signifikantes Ergebnis (1-Weg rANOVA: p = 1,6 * 10-13; mixed effects 1-Weg ANOVA: p = 3,0 * 10-14; Quade Test: p = 6,9 * 10-15; Friedman Test: p = 7,9 * 10-14; Permutations 1-Weg ANOVA: p < 1,0 * 10-5; Bootstrap 1-Weg ANOVA: p = 0,007). Um den Einfluss der Ausreißer auf das Ergebnis zu prüfen, verwenden wir eine einfache Ausreißerverwerfungsregel. Wir schließen alle Patient:innen aus, die bei mindestens einem paarweisen Vergleich der Zeitpunkte eine Differenz aufweisen, die um mehr als das Dreifache des MAD (Median der absoluten Abweichungen vom Median) vom Median abweicht und wiederholen die Analyse. Dies führt zum Ausschluss von 9 Patient:innen und wir erhalten erneut bei allen Analysen ein signifikantes Ergebnis (1-Weg rANOVA: p < 2,2 * 10-16; mixed effects 1-Weg ANOVA: p < 2,2 * 10-16; Quade Test: p = 2,5 * 10-16; Friedman Test: p = 3,5 * 10-14; Permutations 1-Weg ANOVA: p < 1,0 * 10-5; Bootstrap 1-Weg ANOVA: p < 1,0 * 10-5). Wir führen folglich in einem nächsten Schritt paarweise Vergleiche zwischen den Zeitpunkten mittels entsprechender Post-hoc-Tests durch. Wir verwenden für die Berechnungen der gepaarten Tests die R Pakete stats [7] und MKinfer [12]. Der gepaarte t-Test ist hierbei sowohl für die 1-Weg rANOVA als auch für die mixed effects 1-Weg ANOVA ein geeigneter Post-hoc-Test. Bei allen Tests ergibt sich, dass der Mittelwert der GFR-Werte am Zeitpunkt 24 h post EKZ signifikant kleiner ist als an den Zeitpunkten prä OP und post EKZ. Der Vergleich zwischen den Zeitpunkten prä OP und post EKZ liefert kein so eindeutiges Ergebnis. Die adjustierten p-Werte (adj.p) und die 95 % Konfidenzintervalle (ohne Adjustierung) sind in Abb. 6 dargestellt.
Durch die etwas linksschiefe Verteilung und die Ausreißer nach unten (vgl. Abb. 5) dürften im Fall des Vergleiches der Zeitpunkte prä OP und post EKZ der Wilcoxon Vorzeichenrangtest und der gepaarte Median Test die verlässlichsten Ergebnisse darstellen. Der Unterschied zwischen den beiden Zeitpunkten ist demnach zum Signifikanzniveau von 5 % nicht signifikant. Die anderen paarweisen Tests sind sensitiv gegenüber Ausreißern und schiefen Verteilungen und könnten daher ein verzerrtes und fälschlicherweise positives Ergebnis liefern. Wir wiederholen die Analyse ohne die als Ausreißer identifizierten Patient:innen. Die adjustierten p-Werte (adj.p) und die 95 % Konfidenzintervalle (ohne Adjustierung) sind in Abb. 7 dargestellt.
Die Entfernung der Ausreißer ändert die Signifikanz der Vergleiche zwischen prä OP und 24 h post EKZ sowie post EKZ und 24 h post EKZ nicht. Lediglich die 95 % Konfidenzintervalle verschieben sich etwas, was bei jeder Änderung der Daten zu erwarten ist. Beim Vergleich prä OP und post EKZ erhalten wir jetzt jedoch bei keinem Test ein signifikantes Ergebnis. Das Beispiel zeigt einmal mehr, wie wichtig es ist, auf Ausreißer zu achten und im Zweifelsfall besser robuste statistische Verfahren zu verwenden. Davon abgesehen empfiehlt es sich immer, eine Sensitivitätsanalyse durchzuführen und damit den Einfluss von auffälligen Werten auf das Ergebnis einer statistischen Analyse zu überprüfen.
Zusammenfassung
Da die Annahme einer Normalverteilung eine recht starke Voraussetzung darstellt, sollten in der Praxis verstärkt Permutations- und Bootstrap-Varianten der 1-Weg ANOVA verwendet werden. Außerdem führt die Verletzung der Annahme gleicher Varianzen (unabhängige Gruppen) bzw. von Sphärizität/Zirkularität (abhängige Gruppen) in der Regel zu liberalen Tests (d. h., Fehler 1. Art ist größer als α). Daher empfiehlt es sich, Varianten der 1-Weg ANOVA zu verwenden, die auch bei ungleichen Varianzen bzw. bei Nicht-Sphärizität/Nicht-Zirkularität zuverlässige Ergebnisse liefern. Beim Vorliegen von Ausreißern sollte auf robuste Tests wie den Kruskal-Wallis H-Test bzw. den Quade oder Friedman Test ausgewichen werden.
Bei den Post-hoc-Tests, die üblicherweise durchgeführt werden, wenn die 1-Weg ANOVA ein signifikantes Ergebnis liefert, muss darauf geachtet werden, dass statistische Tests verwendet werden, die zur durchgeführten Variante der 1-Weg ANOVA passen. Andernfalls kann es zu inkonsistenten Ergebnissen kommen; d. h., trotz einer signifikanten 1-Weg ANOVA liefern die paarweisen Post-hoc-Tests kein signifikantes Ergebnis.