Einführung
In vorangegangenen Tutorien haben wir uns u.a. mit Konfidenzintervallen [1] und verschiedenen statistischen Tests [2-6] befasst. Diese Verfahren kommen aber nicht nur zum Einsatz, nachdem entsprechende Daten erhoben wurden, sondern spielen von Anfang an eine sehr wichtige Rolle. Im Rahmen der Planung der Studie müssen nämlich insbesondere Überlegungen zur primären Fragestellung, der dazugehörigen Hypothese und dem Konfidenzintervall oder dem statistischen Test, mit dem diese Hypothese überprüft werden soll, angestellt werden. Das ausgewählte Verfahren zur statistischen Analyse der primären Hypothese bildet dann die Grundlage für die Fallzahlplanung, in der die Größe der benötigten Stichprobe bestimmt wird. In diesem Tutorial besprechen wir, wie im Fall von Konfidenzintervallen und statistischen Tests die Fallzahl berechnet werden kann und geben hierfür Beispiele an. Wir erweitern damit unsere vorherigen Ausführungen in [1] (Konfidenzintervall) und [2] (statistischer Test).
Konfidenzintervall
Für die Grundlagen zu Konfidenzintervallen verweisen wir auf [1]. In vielen Fällen besitzt ein (1-α)-Konfidenzintervall (CI) die folgende Form:

wobei θ n die Schätzung für den gesuchten Parameter θ (z.B. Effekt) ist und σθn für dessen Standardabweichung, den sogenannten Standardfehler, steht. Die positiven Konstanten k1 und k2 sind geeignete Quantile, die von der Überdeckungswahrscheinlichkeit 1-α, dem verwendeten Schätzer, dem angenommenen Wahrscheinlichkeitsmodell und der Stichprobengröße n abhängen können [1]. Handelt es sich um ein Intervall, welches asymmetrisch um den Schätzer herum ist (d.h., k1 ≠ k2), basiert die Fallzahlberechnung üblicherweise auf der Länge des Intervalls (k1 + k2) σθn. Man kann jedoch auch den maximalen Abstand zum Schätzer, also das Maximum von k1σθn und k2σθn, verwenden. Ist das Konfidenzintervall symmetrisch (d.h., k1 = k2 = k), so ist es äquivalent, entweder die Länge 2kσθn oder den maximalen Abstand zum Schätzer kσθn für die Fallzahlberechnung heranzuziehen.
Für praktische Fragestellungen ist oft auch nur ein einseitiges Konfidenzintervall interessant. Zum Beispiel soll ein diagnostischer Test eine gewisse Sensitivität nicht unterschreiten oder ein Laborwert eine gewisse Obergrenze nicht überschreiten. In diesem Fall basiert die Fallzahlberechnung entweder auf k1σθn oder k2σθn.
Für die Fallzahlplanung müssen wir zunächst das geeignete Wahrscheinlichkeitsmodell für die primäre Hypothese identifizieren sowie die Fehlerwahrscheinlichkeit α und den erwarteten Wert für den gesuchten Parameter θ festlegen. Unter Umständen müssen wir geeignete Werte für weitere Größen vorgeben, um den Standardfehler σθn in Abhängigkeit von der Fallzahl n bestimmen zu können. Schließlich müssen wir noch die Länge L des Konfidenzintervalls bzw. den maximalen Abstand D vom Schätzer zu den Intervallgrenzen festlegen. Nachdem dies geschehen ist, verbleibt einzig die Fallzahl n als Unbekannte und wir können diese berechnen, indem wir die folgende Gleichung in n lösen:
(k1 + k2) σθn – L = 0
bzw. im einseitigen Fall:
kσθn – D = 0
wobei k = k1 oder k = k2 sein kann. Neben einer Lösung mit numerischen Nullstellenverfahren ist es manchmal auch möglich, eine explizite Formel für n anzugeben.
Es empfiehlt sich aber in vielen Fällen, noch eine zusätzliche Sicherheitswahrscheinlichkeit 1-β in die Fallzahlberechnung zu integrieren, ein Ansatz, der zum Beispiel bei der Fallzahlberechnung für die Sensitivität eines diagnostischen Tests empfohlen wird [7]. Dies dient dazu sicherzustellen, dass die Grenzen des Konfidenzintervalls einen gewissen vorgegebenen Wert θ0 mit einer vorgegebenen hohen Wahrscheinlichkeit 1-β nicht unter- bzw. überschreiten.
P (θn – k1 σθn ≥ θ0) ≥ 1-β bzw. P (θn + k2 σθn ≤ θ0) ≥ 1-β (1)
Das ist gleichbedeutend damit, dass die maximale Abweichung D vom geschätzten Wert θn einen gewissen Wert nicht überschreiten soll, und führt auf:
P (-θn ≤ -θo – k1 σθn) ≥ 1-β bzw. P (θn ≤ θo – k2 σθn) ≥ 1-β
womit wir das 1-β Quantil q1-β der Verteilung von -θn bzw. θn erhalten. Es folgt:
q1-β = -θo – k1 σθn bzw. q1-β = θo + k2 σθn
Nach Festlegung von β müssen wir demnach die Gleichung:
q1-β + θo + k1 σθn = 0 bzw. q1-β – θo – k2 σθn = 0
in n lösen.
Wir greifen das Beispiel aus [1] zur venösen Sauerstoffsättigung (SvO2) auf, wobei wir aufgrund der Symmetrie des hergeleiteten (exakten) Konfidenzintervalls anstelle der Länge L den maximalen Abstand D verwenden. Wir erhalten demnach analog zur Herleitung in [1]:

was äquivalent ist zu:

Wollen wir die Fallzahlberechnung zusätzlich absichern und sicherstellen, dass der maximale Abstand D mit einer vorgegebenen hohen Wahrscheinlichkeit 1-β einen gewissen Wert nicht überschreitet, so müssen wir zusätzlich die maximale Obergrenze µ des Konfidenzintervalls festlegen und erhalten aus Formel (1):

Wir können dies umschreiben zu:

wobei µ der erwartete Wert für die mittlere SvO2 ist und μ0 – µ = D. Da AMn normalverteilt ist mit Mittelwert µ und Standardabweichung, erhalten wir das 1-β Quantil der t-Verteilung mit n-1 Freiheitsgraden

und müssen somit die folgende Gleichung in n lösen:

Mit den Parametern µ = 77,5 %, SD = 6,0 %, α = 5 % und D = 1,5 % ergibt sich aus Gleichung (2) eine Fallzahl von n = 64 (vgl. auch [1]). Wählen wir β = 10 %, so ergibt sich aus Gleichung (3) eine Fallzahl von n = 171 wie in Abb. 1 zu sehen ist.
Die zusätzliche Absicherung führt demnach zu einer deutlichen Erhöhung der Fallzahl. Aufgrund der Symmetrie der t-Verteilung können wir damit auch sagen, dass die untere Grenze des 95 %-Konfidenzintervalls mit 90 % Wahrscheinlichkeit eine SvO2 von 76 % nicht unterschreiten wird.
Für β = 50 % liefern die Formeln (2) und (3) die gleiche Fallzahl, da tn-1;0,5 = 0. Folglich ergibt sich bei der Fallzahlberechnung mit Formel (2) mit 50 % Wahrscheinlichkeit ein 95 %-Konfidenzintervall, bei dem die vorgegebene Grenze µ0 für das Konfidenzintervall unter- bzw. überschritten wird.

In vielen Fällen ist die (exakte) Verteilung von θn nicht bekannt oder es werden Werte für Größen benötigt, die nicht bekannt sind. In diesen Fällen kann man unter Umständen auf einfachere asymptotische Formeln, die sich aus einem zentralen Grenzwertsatz ergeben und damit auf einer Normalverteilung basieren, zurückgreifen. Hierbei sollte man jedoch beachten, dass diese approximativen Formeln oft zu einer leichten Unterschätzung der tatsächlich benötigten Fallzahl führen. Eine weitere Möglichkeit, die immer mehr an Bedeutung gewinnt, sind sogenannte Monte-Carlo-Simulationen. In diesem Fall wird auf Basis der gemachten Annahmen und für eine gewählte Fallzahl n eine Simulation der geplanten Studie am Computer durchgeführt. Dies wird tausende Male mit jeweils neu generierten Zufallszahlen wiederholt, wobei jeweils alle benötigten Größen wie der Schätzer, das Konfidenzintervall, L oder D, 1-β, etc. berechnet werden. Aufgrund des Gesetzes der großen Zahlen stabilisieren sich die Ergebnisse bei einer ausreichend großen Anzahl von Simulationen und indem diese Simulationen für verschiedene Stichprobengrößen durchgeführt werden, kann hieraus die benötigte Fallzahl n empirisch ermittelt werden.
Statistischer Test
Für Details zu statistischen Signifikanztests verweisen wir auf [2]. Die Berechnung der Fallzahl im Fall eines statistischen Tests basiert auf der sogenannten Powerfunktion, die vom angenommenen Wahrscheinlichkeitsmodell, dem verwendeten Test, dem Signifikanzniveau α, der Stichprobengröße n und weiteren Parametern (Effektgröße, Varianz, etc.) abhängt. Die Vorgehensweise ist in gewisser Weise analog zum Fall der Konfidenzintervalle mit zusätzlicher Sicherheitswahrscheinlichkeit 1-β, wobei 1-β im Fall der Tests die angestrebte Power des Tests ist. So ergibt sich für den 1-Stichproben t-Test gerade die Formel (3) (vgl. Abschnitt 7.3.2.2 in [10]). Auch bei der Fallzahlberechnung für statistische Tests gilt, dass in vielen Fällen die exakte Verteilung der Teststatistik nicht bekannt ist oder man Größen benötigt, die nicht bekannt sind und man entsprechend auf Näherungsformeln oder Simulationen ausweichen muss. Da es verschiedenste Software zur Fallzahlberechnung basierend auf statistischen Tests gibt – neben einer Reihe von R Paketen ist zum Beispiel auch die Software G*Power [11] sehr bekannt –, verzichten wir auf die Herleitung von Formeln und betrachten stattdessen ein Beispiel.
Wir greifen das Beispiel aus [2] auf, in dem die postoperativen Troponinwerte betrachtet wurden. Wir gehen wieder von einer Normalverteilung der log10-transformierten Werte aus, wobei wir auf Basis einer Pilotstudie annehmen, dass μ1 = 1,45 und σ1 = 0,3 für das Kardioplegieverfahren Custodiol (CCC) und μ2 = 1,25 und σ2 = 0,4 für die Mikroplegie (MBC) ist. Unter der Annahme von α = 5 %, β = 10 % und gleich großen Gruppen führt uns dies mit dem Welch t-Test auf eine Fallzahl von 67 Patient:innen pro Gruppe (vgl. auch [2]).
Gehen wir davon aus, dass es vereinzelte Ausreißer (≤ 1 % der Daten) geben wird, so ist der Wilcoxon-Mann-Whitney (WMW)-Test dem Welch t-Test vorzuziehen [3]. Formeln zur Fallzahlberechnung für verschiedene Situationen finden sich etwa in [12]. Wir verwenden jedoch für die Berechnung der Fallzahl eine Monte-Carlo-Simulation mit 10.000 Wiederholungen. Diese Vorgehensweise ist im R Paket MKpower [13] implementiert. Wir simulieren die Ausreißer bei den Troponinwerten durch eine uniforme Verteilung auf dem Intervall [100, 1000] ng/ml (entspricht dem Intervall [2,3] auf der log10-Skala). Auf diese Weise erhalten wir eine Fallzahl von 74 Patient:innen pro Gruppe (vgl. Abb. 2).

Da der WMW-Test ein Rangtest ist, spielt die Größe der Ausreißer keine wesentliche Rolle, solange diese größer sind als die Werte, die von den angenommenen Normalverteilungen zu erwarten sind. In einer weiteren alternativen Fallzahlberechnung gehen wir allgemeiner von einer symmetrischen Verteilung aus, bei der Werte in den Flanken der Verteilung mit größerer Wahrscheinlichkeit als im Fall der Normalverteilung auftreten. Wir verwenden hierzu eine t-Verteilung mit 3 Freiheitsgraden, wobei wir diese Verteilung so standardisieren und zentrieren, dass sich die vorgegeben Werte für die Mittelwerte µ1 und µ2 sowie die Standardabweichungen σ und σ ergeben. Als Tests verwenden wir die Welch-Variante eines Permutations t-Tests sowie eines Bootstrap t-Tests, welche im R Paket MKinfer [14] implementiert sind. Wir verwenden für die Monte-Carlo-Simulation wieder 10.000 Wiederholungen, wobei die Ergebnisse der t-Tests auf Basis von 9.999 Permutationen bzw. Bootstrap-Stichproben ermittelt werden. Im Fall des Permutations t-Tests ergibt sich eine Fallzahl von 64 Patient:innen pro Gruppe, im Fall des Bootstrap t-Tests ist die benötigte Fallzahl etwas größer und liegt bei 72 Patient:innen pro Gruppe (vgl. auch Abb. 3).

Ein grundlegendes Problem der Fallzahlplanung haben wir bisher noch nicht angesprochen. Die Fallzahlplanung ist immer nur so gut wie die Annahmen, die man dafür verwendet. Sind diese zu optimistisch, wird die tatsächlich benötigte Fallzahl unterschätzt und die tatsächliche Sicherheitswahrscheinlichkeit bzw. Power der geplanten Studie ist deutlich kleiner als angenommen. Daher sollten die Annahmen immer sehr gründlich überdacht und eher konservativ gewählt werden. Man sollte in diesem Zusammenhang zum Beispiel davon ausgehen, dass kleine Studien, wie Pilotstudien, dazu neigen, die tatsächlichen Effekte zu überschätzen [15]. Oftmals gibt es aber gar keine Pilotstudie, die als Grundlage dienen kann und die für die Fallzahlberechnung benötigten Größen müssen aus Studien abgeleitet werden, die als vergleichbar angesehen werden. Es ist daher immer zu empfehlen, eine Sensitivitätsanalyse durchzuführen, in der man untersucht, wie stark die Fallzahl von den zu wählenden Größen abhängt. Am Beginn einer Fallzahlplanung sollten somit verschiedene Grafiken stehen, welche die Abhängigkeit der Fallzahl von den zu machenden Annahmen zeigen. In Abb. 4 sehen wir, wie sehr sich die Fallzahl im Troponinbeispiel verändert, wenn die Differenz der Mittelwerte µ1-µ2 oder die Standardabweichungen σ1 und σ2 um die angenommenen Werte variieren, wobei wir zusätzlich verschiedene Werte für die Power betrachten. Die Berechnungen basieren auf dem Welch t-Test.
Abschließend sollte dann auf Basis der Sensitivitätsanalyse eine plausible und konservative Parameterkonstellation gewählt und hierfür die finale Fallzahl berechnet werden.

Zusammenfassung
Die Fallzahlplanung ist ein zentraler Bestandteil der Planung von Studien. Diese kann sowohl auf Konfidenzintervallen als auch auf statistischen Tests basieren. Im Fall von Konfidenzintervallen sollte analog zur Power beim statistischen Test eine zusätzliche Sicherheitswahrscheinlichkeit mit einbezogen werden. Wir empfehlen außerdem, zu Beginn der Fallzahlplanung zunächst eine Sensitivitätsanalyse durchzuführen, welche die Abhängigkeit der Fallzahl von den gemachten Annahmen zeigt, und darauf basierend dann die finale Fallzahl zu berechnen.
Nach Möglichkeit sollten für die Berechnungen exakte Gleichungen herangezogen werden, da approximative, auf asymptotischen Ergebnissen basierende Formeln häufig die tatsächlich benötigte Fallzahl etwas unterschätzen. Eine immer wichtiger werdende Alternative stellen Monte-Carlo-Simulationen dar, die insbesondere in komplexen Situationen, in denen es weder exakte noch approximative Formeln gibt, die einzige Möglichkeit darstellen, eine Fallzahlabschätzung durchzuführen.







